مطالعه جدید مشکلاتی را که ممکن است هنگام استفاده از داده‌های منتشر شده برای یک کار برای آموزش الگوریتم‌ها برای یک کار دیگر ایجاد شود، نشان می‌دهد – ScienceDaily


پیشرفت های قابل توجه در هوش مصنوعی (AI) در دهه گذشته بر آموزش گسترده الگوریتم ها با استفاده از پایگاه داده های عظیم و منبع باز متکی بوده است. اما بر اساس مطالعه جدیدی که توسط محققان دانشگاه کالیفرنیا، برکلی و دانشگاه کالیفرنیا انجام شده است، زمانی که چنین مجموعه‌های داده‌ای به‌عنوان «خارج از برچسب» استفاده می‌شوند و به روش‌های ناخواسته اعمال می‌شوند، نتایج در معرض سوگیری یادگیری ماشینی قرار می‌گیرند که یکپارچگی الگوریتم هوش مصنوعی را به خطر می‌اندازد. دانشگاه تگزاس در آستین.

این یافته ها، این هفته در نشریه مجموعه مقالات آکادمی ملی علوم، مشکلاتی را که هنگام استفاده از داده های منتشر شده برای یک کار برای آموزش الگوریتم ها برای کار دیگر ایجاد می شود، برجسته کنید.

محققان زمانی متوجه این موضوع شدند که نتوانستند نتایج امیدوارکننده یک مطالعه تصویربرداری پزشکی را تکرار کنند. مایکل لوستیگ، محقق اصلی این مطالعه، استاد مهندسی برق و علوم کامپیوتر دانشگاه کالیفرنیا برکلی، گفت: «پس از چندین ماه کار، متوجه شدیم که داده‌های تصویری مورد استفاده در مقاله از پیش پردازش شده‌اند. ما می‌خواستیم آگاهی را در مورد این مشکل افزایش دهیم تا محققان بتوانند دقت بیشتری داشته باشند و نتایج واقعی‌تر را منتشر کنند.»

گسترش پایگاه‌های اطلاعاتی آنلاین رایگان در طول سال‌ها به پشتیبانی از توسعه الگوریتم‌های هوش مصنوعی در تصویربرداری پزشکی کمک کرده است. به ویژه برای تصویربرداری رزونانس مغناطیسی (MRI)، بهبود در الگوریتم‌ها می‌تواند به اسکن سریع‌تر تبدیل شود. به دست آوردن یک تصویر MR ابتدا شامل اندازه گیری های خام است که نمایش تصویر را کد می کند. الگوریتم‌های بازسازی تصویر سپس اندازه‌گیری‌ها را رمزگشایی می‌کنند تا تصاویری را تولید کنند که پزشکان برای تشخیص از آن‌ها استفاده می‌کنند.

برخی از مجموعه داده ها، مانند ImageNet معروف، شامل میلیون ها تصویر است. مجموعه داده هایی که شامل تصاویر پزشکی می شوند می توانند برای آموزش الگوریتم های هوش مصنوعی مورد استفاده برای رمزگشایی اندازه گیری های به دست آمده در یک اسکن استفاده شوند. افرات شیمرون، نویسنده ارشد این مطالعه، محقق فوق دکترا در آزمایشگاه Lustig، گفت که محققان جدید و بی تجربه هوش مصنوعی ممکن است از این موضوع بی اطلاع باشند که فایل های این پایگاه های داده پزشکی اغلب از پیش پردازش شده اند، نه خام.

همانطور که بسیاری از عکاسان دیجیتال می‌دانند، فایل‌های تصویر خام حاوی داده‌های بیشتری نسبت به همتایان فشرده خود هستند، بنابراین آموزش الگوریتم‌های هوش مصنوعی در پایگاه‌های داده اندازه‌گیری‌های خام MRI مهم است. اما چنین پایگاه‌های اطلاعاتی کمیاب هستند، بنابراین توسعه‌دهندگان نرم‌افزار گاهی پایگاه‌های داده را با تصاویر MR پردازش شده دانلود می‌کنند، اندازه‌گیری‌های به ظاهر خام را از آن‌ها ترکیب می‌کنند و سپس از آن‌ها برای توسعه الگوریتم‌های بازسازی تصویر خود استفاده می‌کنند.

محققان اصطلاح “جرایم داده ضمنی” را برای توصیف نتایج تحقیقات مغرضانه ای که هنگام توسعه الگوریتم ها با استفاده از این متدولوژی معیوب ایجاد می شود، ابداع کردند. این یک اشتباه آسان است زیرا خطوط لوله پردازش داده قبل از ذخیره آنلاین داده ها توسط متصدیان داده اعمال می شود و این خطوط لوله همیشه توضیح داده نمی شوند. بنابراین همیشه مشخص نیست که کدام تصاویر پردازش می شوند و کدام خام هستند.” شیمرون. این منجر به یک رویکرد اختلاط و تطبیق مشکل‌ساز هنگام توسعه الگوریتم‌های هوش مصنوعی می‌شود.»

خیلی خوبه که درست باشه

برای نشان دادن اینکه چگونه این عمل می‌تواند منجر به سوگیری عملکرد شود، شیمرون و همکارانش سه الگوریتم معروف بازسازی MRI را برای تصاویر خام و پردازش شده بر اساس مجموعه داده‌های fastMRI اعمال کردند. هنگامی که از داده های پردازش شده استفاده می شد، الگوریتم ها تصاویری را تولید می کردند که تا 48 درصد بهتر بودند – به وضوح واضح تر و واضح تر – از تصاویر تولید شده از داده های خام.

شیمرون گفت: «مشکل این است که آن نتایج برای واقعی بودن خیلی خوب بود.

سایر نویسندگان این مطالعه جاناتان تامیر، استادیار مهندسی برق و کامپیوتر در دانشگاه تگزاس در آستین، و کی وانگ، دکترای دانشگاه کالیفرنیا برکلی هستند. دانشجو در آزمایشگاه لوستیگ محققان آزمایش‌های بیشتری را برای نشان دادن تأثیر فایل‌های تصویری پردازش شده بر روی الگوریتم‌های بازسازی تصویر انجام دادند.

محققان با شروع فایل‌های خام، تصاویر را در مراحل کنترل‌شده با استفاده از دو خط لوله پردازش داده رایج که بر بسیاری از پایگاه‌های داده ام‌آرآی با دسترسی باز تأثیر می‌گذارد، پردازش کردند: استفاده از نرم‌افزار اسکنر تجاری و ذخیره‌سازی داده با فشرده‌سازی JPEG. آنها سه الگوریتم بازسازی تصویر را با استفاده از آن مجموعه داده ها آموزش دادند و سپس دقت تصاویر بازسازی شده را در مقابل میزان پردازش داده ها اندازه گیری کردند.

شیمرون می‌گوید: «نتایج ما نشان داد که همه الگوریتم‌ها رفتار مشابهی دارند: وقتی روی داده‌های پردازش شده پیاده‌سازی می‌شوند، تصاویری تولید می‌کنند که به نظر خوب به نظر می‌رسند، اما متفاوت از تصاویر اصلی و پردازش نشده به نظر می‌رسند». “این تفاوت به شدت با میزان پردازش داده ها مرتبط است.”

نتایج “بیش از حد خوش بینانه”.

محققان همچنین خطر بالقوه استفاده از الگوریتم‌های از پیش آموزش‌دیده‌شده را در یک مجموعه بالینی بررسی کردند، الگوریتم‌هایی را که از قبل بر روی داده‌های پردازش‌شده آموزش داده شده بودند و به‌کارگیری آن‌ها در داده‌های خام دنیای واقعی استفاده کردند.

شیمرون گفت: «نتایج قابل توجه بود. الگوریتم‌هایی که با داده‌های پردازش‌شده تطبیق داده شده بودند، زمانی که مجبور بودند داده‌های خام را مدیریت کنند، عملکرد ضعیفی داشتند.»

نویسندگان مطالعه گفتند که تصاویر ممکن است عالی به نظر برسند، اما نادرست هستند. شیمرون گفت: «در برخی موارد شدید، جزئیات کوچک و مهم بالینی مرتبط با آسیب شناسی ممکن است به طور کامل نادیده گرفته شوند.

در حالی که الگوریتم‌ها ممکن است تصاویر واضح‌تر و دریافت سریع‌تر تصاویر را گزارش کنند، نتایج را نمی‌توان با داده‌های بالینی یا اسکنر خام بازتولید کرد. به گفته محققان، این نتایج “بیش از حد خوش بینانه” خطر ترجمه الگوریتم های مغرضانه به عملکرد بالینی را نشان می دهد.

تامیر که دکترای خود را دریافت کرده است، گفت: “هیچکس نمی تواند پیش بینی کند که این روش ها چگونه در عمل بالینی کار می کنند، و این مانعی برای پذیرش بالینی ایجاد می کند.” در مهندسی برق و علوم کامپیوتر در UC Berkeley و عضو سابق آزمایشگاه Lustig بود. “همچنین مقایسه روش های مختلف رقابتی را دشوار می کند، زیرا برخی ممکن است عملکرد را بر روی داده های بالینی گزارش کنند، در حالی که برخی دیگر ممکن است عملکرد را بر روی داده های پردازش شده گزارش کنند.”

شیمرون گفت که افشای چنین “جرایم داده ای” مهم است زیرا هم صنعت و هم دانشگاه به سرعت در حال کار برای توسعه روش های جدید هوش مصنوعی برای تصویربرداری پزشکی هستند. او گفت که متصدیان داده می‌توانند با ارائه توضیحات کامل در وب‌سایت خود از تکنیک‌های مورد استفاده برای پردازش فایل‌ها در مجموعه داده‌شان کمک کنند. علاوه بر این، این مطالعه دستورالعمل‌های خاصی را برای کمک به محققان MRI ارائه می‌کند تا بدون معرفی این سوگیری‌های یادگیری ماشین، مطالعات آینده را طراحی کنند.

کمک مالی موسسه ملی تصویربرداری زیست پزشکی و مهندسی زیستی و موسسه ملی علوم بنیادی برای مبانی یادگیری ماشین به حمایت از این تحقیق کمک کرد.



منبع

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]