یک مسیر ساده تر برای دید بهتر کامپیوتر — ScienceDaily


قبل از اینکه یک مدل یادگیری ماشینی بتواند کاری را انجام دهد، مانند شناسایی سرطان در تصاویر پزشکی، مدل باید آموزش ببیند. آموزش مدل‌های طبقه‌بندی تصویر معمولاً شامل نشان دادن میلیون‌ها تصویر نمونه به مدل است که در یک مجموعه داده عظیم جمع‌آوری شده‌اند.

با این حال، استفاده از داده‌های تصویر واقعی می‌تواند نگرانی‌های عملی و اخلاقی را ایجاد کند: این تصاویر می‌توانند با قوانین کپی رایت مغایرت داشته باشند، حریم خصوصی افراد را نقض کنند، یا علیه یک گروه نژادی یا قومی خاص تعصب داشته باشند. برای جلوگیری از این مشکلات، محققان می توانند از برنامه های تولید تصویر برای ایجاد داده های مصنوعی برای آموزش مدل استفاده کنند. اما این تکنیک ها محدود هستند زیرا دانش تخصصی اغلب برای طراحی دستی یک برنامه تولید تصویر که می تواند داده های آموزشی موثر ایجاد کند، مورد نیاز است.

محققان MIT، MIT-IBM Watson AI Lab و جاهای دیگر رویکرد متفاوتی را در پیش گرفتند. آنها به جای طراحی برنامه های تولید تصویر سفارشی برای یک کار آموزشی خاص، مجموعه داده ای از 21000 برنامه در دسترس عموم را از اینترنت جمع آوری کردند. سپس آنها از این مجموعه بزرگ از برنامه های تولید تصویر اولیه برای آموزش یک مدل بینایی کامپیوتری استفاده کردند.

این برنامه ها تصاویر متنوعی را تولید می کنند که رنگ ها و بافت های ساده را نمایش می دهند. محققان برنامه‌ها را که هر کدام فقط چند خط کد را شامل می‌شد، تنظیم یا تغییر ندادند.

مدل‌هایی که آنها با این مجموعه داده بزرگ از برنامه‌ها آموزش دادند، تصاویر را با دقت بیشتری نسبت به سایر مدل‌های آموزش‌دیده مصنوعی طبقه‌بندی کردند. و در حالی که مدل‌های آن‌ها نسبت به مدل‌هایی که با داده‌های واقعی آموزش دیده بودند، عملکرد ضعیفی داشتند، محققان نشان دادند که افزایش تعداد برنامه‌های تصویری در مجموعه داده‌ها، عملکرد مدل را نیز افزایش می‌دهد و مسیری را برای دستیابی به دقت بالاتر نشان می‌دهد.

مانل براداد می‌گوید: «به نظر می‌رسد که استفاده از بسیاری از برنامه‌های غیرمجاز در واقع بهتر از استفاده از مجموعه کوچکی از برنامه‌هایی است که مردم باید دستکاری کنند. داده‌ها مهم هستند، اما ما نشان داده‌ایم که شما می‌توانید بدون داده‌های واقعی تا حد زیادی پیش بروید». ، یک دانشجوی فارغ التحصیل مهندسی برق و علوم کامپیوتر (EECS) که در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) کار می کند و نویسنده اصلی مقاله توصیف کننده این تکنیک است.

نویسندگان همکار عبارتند از Tongzhou Wang، دانشجوی کارشناسی ارشد EECS در CSAIL. روجریو فریس، دانشمند و مدیر اصلی آزمایشگاه هوش مصنوعی MIT-IBM Watson; آنتونیو تورالبا، پروفسور مهندسی برق و علوم کامپیوتر دلتا الکترونیک و عضو CSAIL. و نویسنده ارشد فیلیپ ایزولا، دانشیار در EECS و CSAIL. این تحقیق در کنفرانس سیستم‌های پردازش اطلاعات عصبی ارائه خواهد شد.

بازاندیشی در پیش تمرین

مدل‌های یادگیری ماشینی معمولاً از قبل آموزش داده شده‌اند، به این معنی که ابتدا بر روی یک مجموعه داده آموزش داده می‌شوند تا به آنها در ایجاد پارامترهایی کمک کند که می‌توانند برای مقابله با یک کار متفاوت مورد استفاده قرار گیرند. یک مدل برای طبقه بندی اشعه ایکس ممکن است با استفاده از مجموعه داده عظیمی از تصاویر تولید شده مصنوعی قبل از آموزش برای کار واقعی خود با استفاده از مجموعه داده بسیار کوچکتر از اشعه ایکس واقعی، از قبل آموزش داده شود.

این محققان قبلاً نشان داده بودند که می‌توانند از تعداد معدودی برنامه تولید تصویر برای ایجاد داده‌های مصنوعی برای پیش‌آموزش مدل استفاده کنند، اما برنامه‌ها باید به دقت طراحی شوند تا تصاویر مصنوعی با ویژگی‌های خاصی از تصاویر واقعی مطابقت داشته باشند. این باعث شد که این تکنیک افزایش یابد.

در کار جدید، آنها به جای آن از مجموعه داده عظیمی از برنامه‌های تولید تصویر انتخاب نشده استفاده کردند.

آنها با جمع آوری مجموعه ای از 21000 برنامه تولید تصویر از اینترنت شروع کردند. همه برنامه ها با یک زبان برنامه نویسی ساده نوشته شده اند و فقط چند قطعه کد را شامل می شوند، بنابراین به سرعت تصاویر را تولید می کنند.

براداد توضیح می دهد: “این برنامه ها توسط توسعه دهندگان در سراسر جهان برای تولید تصاویری طراحی شده اند که برخی از ویژگی های مورد علاقه ما را دارند. آنها تصاویری را تولید می کنند که به نوعی شبیه هنر انتزاعی هستند.”

این برنامه های ساده می توانند آنقدر سریع اجرا شوند که محققان نیازی به تولید تصاویر از قبل برای آموزش مدل نداشته باشند. محققان دریافتند که می توانند تصاویر تولید کنند و مدل را به طور همزمان آموزش دهند که این روند را ساده می کند.

آن‌ها از مجموعه داده عظیم برنامه‌های تولید تصویر برای آموزش مدل‌های بینایی رایانه‌ای برای کارهای طبقه‌بندی تصاویر تحت نظارت و بدون نظارت استفاده کردند. در یادگیری نظارت شده، داده های تصویر برچسب گذاری می شوند، در حالی که در یادگیری بدون نظارت، مدل یاد می گیرد که تصاویر را بدون برچسب دسته بندی کند.

بهبود دقت

هنگامی که آنها مدل های از پیش آموزش دیده خود را با مدل های بینایی کامپیوتری پیشرفته که با استفاده از داده های مصنوعی از قبل آموزش داده شده بودند مقایسه کردند، مدل های آنها دقیق تر بودند، به این معنی که تصاویر را بیشتر در دسته بندی های صحیح قرار می دادند. در حالی که سطوح دقت هنوز کمتر از مدل‌هایی بود که بر روی داده‌های واقعی آموزش داده شده بودند، تکنیک آنها شکاف عملکرد بین مدل‌هایی را که بر روی داده‌های واقعی آموزش دیده‌اند و مدل‌هایی که بر روی داده‌های مصنوعی آموزش دیده‌اند را تا ۳۸ درصد کاهش داد.

“نکته مهم، ما نشان می‌دهیم که برای تعداد برنامه‌هایی که جمع‌آوری می‌کنید، عملکرد به صورت لگاریتمی مقیاس می‌شود. ما عملکرد را اشباع نمی‌کنیم، بنابراین اگر برنامه‌های بیشتری جمع‌آوری کنیم، مدل حتی بهتر عمل می‌کند. بنابراین، راهی برای گسترش رویکرد ما وجود دارد.” مانل می گوید.

محققان همچنین از هر برنامه تولید تصویر جداگانه برای پیش‌آموزش استفاده کردند تا عواملی را که به دقت مدل کمک می‌کنند، کشف کنند. آنها دریافتند که وقتی یک برنامه مجموعه ای متنوع از تصاویر را تولید می کند، مدل بهتر عمل می کند. آنها همچنین دریافتند که تصاویر رنگارنگ با صحنه هایی که کل بوم را پر می کنند، عملکرد مدل را بیشتر بهبود می بخشند.

اکنون که موفقیت این رویکرد پیش‌آموزشی را نشان داده‌اند، محققان می‌خواهند تکنیک خود را به انواع دیگر داده‌ها، مانند داده‌های چندوجهی که شامل متن و تصاویر می‌شود، گسترش دهند. آنها همچنین می خواهند به بررسی راه هایی برای بهبود عملکرد طبقه بندی تصاویر ادامه دهند.

او می‌گوید: «هنوز با مدل‌هایی که بر اساس داده‌های واقعی آموزش دیده‌اند فاصله‌ای وجود دارد. این به تحقیقات ما جهتی می‌دهد که امیدواریم دیگران از آن پیروی کنند».



منبع

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]