
بروزرسانی: 25 خرداد 1404
یک مسیر ساده تر برای دید بهتر کامپیوتر -- ScienceDaily
مانل براداد می گوید: «به نظر می رسد که استفاده از بسیاری از برنامه های غیرمجاز در واقع بهتر از استفاده از مجموعه کوچکی از برنامه هایی است که مردم باید دستکاری کنند. داده ها مهم هستند، اما ما نشان داده ایم که شما می توانید بدون داده های واقعی تا حد زیادی پیش بروید». ، یک دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) که در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) کار می کند و نویسنده اصلی مقاله توصیف کننده این تکنیک است.
آنها با جمع آوری مجموعه ای از 21000 برنامه تولید تصویر از اینترنت شروع کردند. همه برنامه ها با یک زبان برنامه نویسی ساده نوشته شده اند و فقط چند قطعه کد را شامل می شوند، بنابراین به سرعت تصاویر را تولید می کنند.
این برنامه ها تصاویر متنوعی را تولید می کنند که رنگ ها و بافت های ساده را نمایش می دهند. محققان برنامه ها را که هر کدام فقط چند خط کد را شامل می شد، تنظیم یا تغییر ندادند.
اکنون که موفقیت این رویکرد پیش آموزشی را نشان داده اند، محققان می خواهند تکنیک خود را به انواع دیگر داده ها، مانند داده های چندوجهی که شامل متن و تصاویر می شود، گسترش دهند. آنها همچنین می خواهند به بررسی راه هایی برای بهبود عملکرد طبقه بندی تصاویر ادامه دهند.
قبل از اینکه یک مدل یادگیری ماشینی بتواند کاری را انجام دهد، مانند شناسایی سرطان در تصاویر پزشکی، مدل باید آموزش ببیند. آموزش مدل های طبقه بندی تصویر معمولاً شامل نشان دادن میلیون ها تصویر نمونه به مدل است که در یک مجموعه داده عظیم جمع آوری شده اند.
براداد توضیح می دهد: "این برنامه ها توسط توسعه دهندگان در سراسر جهان برای تولید تصاویری طراحی شده اند که برخی از ویژگی های مورد علاقه ما را دارند. آنها تصاویری را تولید می کنند که به نوعی شبیه هنر انتزاعی هستند."
این محققان قبلاً نشان داده بودند که می توانند از تعداد معدودی برنامه تولید تصویر برای ایجاد داده های مصنوعی برای پیش آموزش مدل استفاده کنند، اما برنامه ها باید به دقت طراحی شوند تا تصاویر مصنوعی با ویژگی های خاصی از تصاویر واقعی مطابقت داشته باشند. این باعث شد که این تکنیک افزایش یابد.
محققان MIT، MIT-IBM Watson AI Lab و جاهای دیگر رویکرد متفاوتی را در پیش گرفتند. آنها به جای طراحی برنامه های تولید تصویر سفارشی برای یک کار آموزشی خاص، مجموعه داده ای از 21000 برنامه در دسترس عموم را از اینترنت جمع آوری کردند. سپس آنها از این مجموعه بزرگ از برنامه های تولید تصویر اولیه برای آموزش یک مدل بینایی کامپیوتری استفاده کردند.
نویسندگان همکار عبارتند از Tongzhou Wang، دانشجوی کارشناسی ارشد EECS در CSAIL. روجریو فریس، دانشمند و مدیر اصلی آزمایشگاه هوش مصنوعی MIT-IBM Watson; آنتونیو تورالبا، پروفسور مهندسی برق و علوم کامپیوتر دلتا الکترونیک و عضو CSAIL. و نویسنده ارشد فیلیپ ایزولا، دانشیار در EECS و CSAIL. این تحقیق در کنفرانس سیستم های پردازش اطلاعات عصبی ارائه خواهد شد.
محققان همچنین از هر برنامه تولید تصویر جداگانه برای پیش آموزش استفاده کردند تا عواملی را که به دقت مدل کمک می کنند، کشف کنند. آنها دریافتند که وقتی یک برنامه مجموعه ای متنوع از تصاویر را تولید می کند، مدل بهتر عمل می کند. آنها همچنین دریافتند که تصاویر رنگارنگ با صحنه هایی که کل بوم را پر می کنند، عملکرد مدل را بیشتر بهبود می بخشند.
با این حال، استفاده از داده های تصویر واقعی می تواند نگرانی های عملی و اخلاقی را ایجاد کند: این تصاویر می توانند با قوانین کپی رایت مغایرت داشته باشند، حریم خصوصی افراد را نقض کنند، یا علیه یک گروه نژادی یا قومی خاص تعصب داشته باشند. برای جلوگیری از این مشکلات، محققان می توانند از برنامه های تولید تصویر برای ایجاد داده های مصنوعی برای آموزش مدل استفاده کنند. اما این تکنیک ها محدود هستند زیرا دانش تخصصی اغلب برای طراحی دستی یک برنامه تولید تصویر که می تواند داده های آموزشی موثر ایجاد کند، مورد نیاز است.
این برنامه های ساده می توانند آنقدر سریع اجرا شوند که محققان نیازی به تولید تصاویر از قبل برای آموزش مدل نداشته باشند. محققان دریافتند که می توانند تصاویر تولید کنند و مدل را به طور همزمان آموزش دهند که این روند را ساده می کند.
"نکته مهم، ما نشان می دهیم که برای تعداد برنامه هایی که جمع آوری می کنید، عملکرد به صورت لگاریتمی مقیاس می شود. ما عملکرد را اشباع نمی کنیم، بنابراین اگر برنامه های بیشتری جمع آوری کنیم، مدل حتی بهتر عمل می کند. بنابراین، راهی برای گسترش رویکرد ما وجود دارد." مانل می گوید.
در کار جدید، آنها به جای آن از مجموعه داده عظیمی از برنامه های تولید تصویر انتخاب نشده استفاده کردند.
هنگامی که آنها مدل های از پیش آموزش دیده خود را با مدل های بینایی کامپیوتری پیشرفته که با استفاده از داده های مصنوعی از قبل آموزش داده شده بودند مقایسه کردند، مدل های آنها دقیق تر بودند، به این معنی که تصاویر را بیشتر در دسته بندی های صحیح قرار می دادند. در حالی که سطوح دقت هنوز کمتر از مدل هایی بود که بر روی داده های واقعی آموزش داده شده بودند، تکنیک آنها شکاف عملکرد بین مدل هایی را که بر روی داده های واقعی آموزش دیده اند و مدل هایی که بر روی داده های مصنوعی آموزش دیده اند را تا ۳۸ درصد کاهش داد.
مدل هایی که آنها با این مجموعه داده بزرگ از برنامه ها آموزش دادند، تصاویر را با دقت بیشتری نسبت به سایر مدل های آموزش دیده مصنوعی طبقه بندی کردند. و در حالی که مدل های آن ها نسبت به مدل هایی که با داده های واقعی آموزش دیده بودند، عملکرد ضعیفی داشتند، محققان نشان دادند که افزایش تعداد برنامه های تصویری در مجموعه داده ها، عملکرد مدل را نیز افزایش می دهد و مسیری را برای دستیابی به دقت بالاتر نشان می دهد.
بازاندیشی در پیش تمرین
بهبود دقت
آن ها از مجموعه داده عظیم برنامه های تولید تصویر برای آموزش مدل های بینایی رایانه ای برای کارهای طبقه بندی تصاویر تحت نظارت و بدون نظارت استفاده کردند. در یادگیری نظارت شده، داده های تصویر برچسب گذاری می شوند، در حالی که در یادگیری بدون نظارت، مدل یاد می گیرد که تصاویر را بدون برچسب دسته بندی کند.
مدل های یادگیری ماشینی معمولاً از قبل آموزش داده شده اند، به این معنی که ابتدا بر روی یک مجموعه داده آموزش داده می شوند تا به آنها در ایجاد پارامترهایی کمک کند که می توانند برای مقابله با یک کار متفاوت مورد استفاده قرار گیرند. یک مدل برای طبقه بندی اشعه ایکس ممکن است با استفاده از مجموعه داده عظیمی از تصاویر تولید شده مصنوعی قبل از آموزش برای کار واقعی خود با استفاده از مجموعه داده بسیار کوچکتر از اشعه ایکس واقعی، از قبل آموزش داده شود.
او می گوید: «هنوز با مدل هایی که بر اساس داده های واقعی آموزش دیده اند فاصله ای وجود دارد. این به تحقیقات ما جهتی می دهد که امیدواریم دیگران از آن پیروی کنند».
منبع