آنها با جمع آوری مجموعه ای از 21000 برنامه تولید تصویر از اینترنت شروع کردند. همه برنامه ها با یک زبان برنامه نویسی ساده نوشته شده اند و فقط چند قطعه کد را شامل می شوند، بنابراین به سرعت تصاویر را تولید می کنند.
این محققان قبلاً نشان داده بودند که میتوانند از تعداد معدودی برنامه تولید تصویر برای ایجاد دادههای مصنوعی برای پیشآموزش مدل استفاده کنند، اما برنامهها باید به دقت طراحی شوند تا تصاویر مصنوعی با ویژگیهای خاصی از تصاویر واقعی مطابقت داشته باشند. این باعث شد که این تکنیک افزایش یابد.
اکنون که موفقیت این رویکرد پیشآموزشی را نشان دادهاند، محققان میخواهند تکنیک خود را به انواع دیگر دادهها، مانند دادههای چندوجهی که شامل متن و تصاویر میشود، گسترش دهند. آنها همچنین می خواهند به بررسی راه هایی برای بهبود عملکرد طبقه بندی تصاویر ادامه دهند.
مدلهایی که آنها با این مجموعه داده بزرگ از برنامهها آموزش دادند، تصاویر را با دقت بیشتری نسبت به سایر مدلهای آموزشدیده مصنوعی طبقهبندی کردند. و در حالی که مدلهای آنها نسبت به مدلهایی که با دادههای واقعی آموزش دیده بودند، عملکرد ضعیفی داشتند، محققان نشان دادند که افزایش تعداد برنامههای تصویری در مجموعه دادهها، عملکرد مدل را نیز افزایش میدهد و مسیری را برای دستیابی به دقت بالاتر نشان میدهد.
در کار جدید، آنها به جای آن از مجموعه داده عظیمی از برنامههای تولید تصویر انتخاب نشده استفاده کردند.
براداد توضیح می دهد: “این برنامه ها توسط توسعه دهندگان در سراسر جهان برای تولید تصاویری طراحی شده اند که برخی از ویژگی های مورد علاقه ما را دارند. آنها تصاویری را تولید می کنند که به نوعی شبیه هنر انتزاعی هستند.”
بهبود دقت
مدلهای یادگیری ماشینی معمولاً از قبل آموزش داده شدهاند، به این معنی که ابتدا بر روی یک مجموعه داده آموزش داده میشوند تا به آنها در ایجاد پارامترهایی کمک کند که میتوانند برای مقابله با یک کار متفاوت مورد استفاده قرار گیرند. یک مدل برای طبقه بندی اشعه ایکس ممکن است با استفاده از مجموعه داده عظیمی از تصاویر تولید شده مصنوعی قبل از آموزش برای کار واقعی خود با استفاده از مجموعه داده بسیار کوچکتر از اشعه ایکس واقعی، از قبل آموزش داده شود.
نویسندگان همکار عبارتند از Tongzhou Wang، دانشجوی کارشناسی ارشد EECS در CSAIL. روجریو فریس، دانشمند و مدیر اصلی آزمایشگاه هوش مصنوعی MIT-IBM Watson; آنتونیو تورالبا، پروفسور مهندسی برق و علوم کامپیوتر دلتا الکترونیک و عضو CSAIL. و نویسنده ارشد فیلیپ ایزولا، دانشیار در EECS و CSAIL. این تحقیق در کنفرانس سیستمهای پردازش اطلاعات عصبی ارائه خواهد شد.
او میگوید: «هنوز با مدلهایی که بر اساس دادههای واقعی آموزش دیدهاند فاصلهای وجود دارد. این به تحقیقات ما جهتی میدهد که امیدواریم دیگران از آن پیروی کنند».
هنگامی که آنها مدل های از پیش آموزش دیده خود را با مدل های بینایی کامپیوتری پیشرفته که با استفاده از داده های مصنوعی از قبل آموزش داده شده بودند مقایسه کردند، مدل های آنها دقیق تر بودند، به این معنی که تصاویر را بیشتر در دسته بندی های صحیح قرار می دادند. در حالی که سطوح دقت هنوز کمتر از مدلهایی بود که بر روی دادههای واقعی آموزش داده شده بودند، تکنیک آنها شکاف عملکرد بین مدلهایی را که بر روی دادههای واقعی آموزش دیدهاند و مدلهایی که بر روی دادههای مصنوعی آموزش دیدهاند را تا ۳۸ درصد کاهش داد.
محققان MIT، MIT-IBM Watson AI Lab و جاهای دیگر رویکرد متفاوتی را در پیش گرفتند. آنها به جای طراحی برنامه های تولید تصویر سفارشی برای یک کار آموزشی خاص، مجموعه داده ای از 21000 برنامه در دسترس عموم را از اینترنت جمع آوری کردند. سپس آنها از این مجموعه بزرگ از برنامه های تولید تصویر اولیه برای آموزش یک مدل بینایی کامپیوتری استفاده کردند.
قبل از اینکه یک مدل یادگیری ماشینی بتواند کاری را انجام دهد، مانند شناسایی سرطان در تصاویر پزشکی، مدل باید آموزش ببیند. آموزش مدلهای طبقهبندی تصویر معمولاً شامل نشان دادن میلیونها تصویر نمونه به مدل است که در یک مجموعه داده عظیم جمعآوری شدهاند.
با این حال، استفاده از دادههای تصویر واقعی میتواند نگرانیهای عملی و اخلاقی را ایجاد کند: این تصاویر میتوانند با قوانین کپی رایت مغایرت داشته باشند، حریم خصوصی افراد را نقض کنند، یا علیه یک گروه نژادی یا قومی خاص تعصب داشته باشند. برای جلوگیری از این مشکلات، محققان می توانند از برنامه های تولید تصویر برای ایجاد داده های مصنوعی برای آموزش مدل استفاده کنند. اما این تکنیک ها محدود هستند زیرا دانش تخصصی اغلب برای طراحی دستی یک برنامه تولید تصویر که می تواند داده های آموزشی موثر ایجاد کند، مورد نیاز است.
این برنامه های ساده می توانند آنقدر سریع اجرا شوند که محققان نیازی به تولید تصاویر از قبل برای آموزش مدل نداشته باشند. محققان دریافتند که می توانند تصاویر تولید کنند و مدل را به طور همزمان آموزش دهند که این روند را ساده می کند.
“نکته مهم، ما نشان میدهیم که برای تعداد برنامههایی که جمعآوری میکنید، عملکرد به صورت لگاریتمی مقیاس میشود. ما عملکرد را اشباع نمیکنیم، بنابراین اگر برنامههای بیشتری جمعآوری کنیم، مدل حتی بهتر عمل میکند. بنابراین، راهی برای گسترش رویکرد ما وجود دارد.” مانل می گوید.
مانل براداد میگوید: «به نظر میرسد که استفاده از بسیاری از برنامههای غیرمجاز در واقع بهتر از استفاده از مجموعه کوچکی از برنامههایی است که مردم باید دستکاری کنند. دادهها مهم هستند، اما ما نشان دادهایم که شما میتوانید بدون دادههای واقعی تا حد زیادی پیش بروید». ، یک دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) که در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) کار می کند و نویسنده اصلی مقاله توصیف کننده این تکنیک است.
محققان همچنین از هر برنامه تولید تصویر جداگانه برای پیشآموزش استفاده کردند تا عواملی را که به دقت مدل کمک میکنند، کشف کنند. آنها دریافتند که وقتی یک برنامه مجموعه ای متنوع از تصاویر را تولید می کند، مدل بهتر عمل می کند. آنها همچنین دریافتند که تصاویر رنگارنگ با صحنه هایی که کل بوم را پر می کنند، عملکرد مدل را بیشتر بهبود می بخشند.
بازاندیشی در پیش تمرین
این برنامه ها تصاویر متنوعی را تولید می کنند که رنگ ها و بافت های ساده را نمایش می دهند. محققان برنامهها را که هر کدام فقط چند خط کد را شامل میشد، تنظیم یا تغییر ندادند.
آنها از مجموعه داده عظیم برنامههای تولید تصویر برای آموزش مدلهای بینایی رایانهای برای کارهای طبقهبندی تصاویر تحت نظارت و بدون نظارت استفاده کردند. در یادگیری نظارت شده، داده های تصویر برچسب گذاری می شوند، در حالی که در یادگیری بدون نظارت، مدل یاد می گیرد که تصاویر را بدون برچسب دسته بندی کند.