در مطالعه ای بر روی نزدیک به 5000 ماموگرافی غربالگری که توسط یک الگوریتم AI مورد تایید FDA تفسیر شده بود، ویژگی های بیمار مانند نژاد و سن بر نتایج مثبت کاذب تأثیر گذاشت. نتایج این مطالعه امروز در منتشر شد رادیولوژیژورنال انجمن رادیولوژی آمریکای شمالی (RSNA).
دکتر درک ال. نگوین، استادیار دانشگاه دوک در دورهام، کارولینای شمالی، گفت: هوش مصنوعی به منبعی برای رادیولوژیست ها تبدیل شده است تا کارایی و دقت خود را در خواندن ماموگرافی غربالگری بهبود بخشند و فرسودگی خواننده را کاهش دهند. با این حال، تاثیر ویژگی های بیمار بر عملکرد هوش مصنوعی به خوبی مورد مطالعه قرار نگرفته است.
دکتر نگوین گفت در حالی که دادههای اولیه نشان میدهد که الگوریتمهای هوش مصنوعی به کار رفته در آزمایشهای غربالگری ماموگرافی ممکن است عملکرد تشخیصی رادیولوژیستها را برای تشخیص سرطان سینه بهبود بخشد و زمان تفسیر را کاهش دهد، برخی از جنبههای هوش مصنوعی وجود دارد که باید از آنها آگاه بود.
او گفت: «پایگاههای اطلاعاتی با تنوع جمعیتی کمی برای آموزش الگوریتم هوش مصنوعی وجود دارد و FDA برای اعتبارسنجی به مجموعه دادههای متنوعی نیاز ندارد. به دلیل تفاوتهای بین جمعیت بیماران، بررسی اینکه آیا نرمافزار هوش مصنوعی میتواند برای سنین، نژادها و قومیتهای مختلف بیماران را در یک سطح قرار دهد و کار کند، مهم است.
در مطالعه گذشته نگر، محققان بیمارانی را شناسایی کردند که معاینات غربالگری توموسنتز دیجیتال پستان منفی (بدون شواهدی از سرطان) در مرکز پزشکی دانشگاه دوک بین سالهای 2016 تا 2019 انجام شده بود. همه بیماران برای یک دوره دو ساله پس از انجام ماموگرافی غربالگری تحت نظر قرار گرفتند و هیچ بیماری وجود نداشت. بدخیمی پستان تشخیص داده شد.
محققان به طور تصادفی زیرمجموعه ای از این گروه متشکل از 4855 بیمار (سن متوسط 54 سال) را انتخاب کردند که به طور گسترده در چهار گروه قومی/نژادی توزیع شده بودند. این زیر مجموعه شامل 1316 (27%) سفیدپوست، 1261 (26%) سیاه پوست، 1351 (28%) آسیایی و 927 (19%) بیمار اسپانیایی تبار بود.
یک الگوریتم هوش مصنوعی تجاری موجود، هر معاینه را در زیرمجموعه ماموگرافی تفسیر میکرد و هم یک امتیاز موردی (یا قطعیت بدخیمی) و هم یک امتیاز خطر (یا خطر بدخیمی یک ساله بعدی) ایجاد کرد.
دکتر نگوین گفت: “هدف ما ارزیابی این بود که آیا عملکرد یک الگوریتم هوش مصنوعی در سن، انواع تراکم سینه و نژاد/قومیت های مختلف بیمار یکنواخت است یا خیر.”
با توجه به اینکه همه ماموگرافیهای موجود در این مطالعه برای وجود سرطان منفی بودند، هر چیزی که توسط الگوریتم مشکوک بود، نتیجه مثبت کاذب در نظر گرفته شد. نمرات موارد مثبت کاذب در بیماران سیاه پوست و مسن تر (71-80 سال) و در بیماران آسیایی و بیماران جوان تر (41-50 سال) در مقایسه با بیماران سفیدپوست و زنان بین 51 تا 60 سال به طور قابل توجهی بیشتر محتمل بود.
دکتر نگوین گفت: “این مطالعه مهم است زیرا نشان می دهد که هر نرم افزار هوش مصنوعی خریداری شده توسط یک موسسه مراقبت های بهداشتی ممکن است در تمام سنین، نژادها/قومیت ها و تراکم پستان بیماران به طور یکسان عمل نکند.” در حرکت رو به جلو، من فکر می کنم ارتقاء نرم افزار هوش مصنوعی باید بر تضمین تنوع جمعیتی تمرکز کند.
دکتر نگوین گفت که موسسات مراقبت های بهداشتی باید قبل از خرید الگوریتم هوش مصنوعی برای غربالگری تفسیر ماموگرافی، جمعیت بیمارانی را که به آنها خدمت می کنند، درک کنند و از فروشندگان در مورد آموزش الگوریتم آنها بپرسند.
او گفت: “داشتن دانش پایه از جمعیت شناسی موسسه خود و پرسیدن از فروشنده در مورد تنوع قومی و سنی داده های آموزشی به شما کمک می کند تا محدودیت هایی را که در عمل بالینی با آن مواجه خواهید بود، درک کنید.”