
بروزرسانی: 27 خرداد 1404
محققان روشی کارآمد برای آموزش عوامل هوش مصنوعی قابل اعتمادتر ایجاد می کنند
رشته های مختلف از رباتیک گرفته تا پزشکی و علوم سیاسی در تلاش هستند تا سیستم های هوش مصنوعی را برای گرفتن تصمیم های معنادار از همه نوع آموزش دهند. به عنوان مثال، استفاده از یک سیستم هوش مصنوعی برای کنترل هوشمند ترافیک در یک شهر شلوغ می تواند به رانندگان کمک کند تا سریعتر به مقصد برسند و در عین حال ایمنی یا پایداری را بهبود بخشد.
متأسفانه، آموزش یک سیستم هوش مصنوعی برای تصمیم گیری خوب کار آسانی نیست.
مدل های یادگیری تقویتی، که زیربنای این سیستم های تصمیم گیری هوش مصنوعی هستند، در صورت مواجهه با تغییرات حتی کوچک در وظایفی که برای انجام آنها آموزش دیده اند، اغلب شکست می خورند. در مورد ترافیک، یک مدل ممکن است در کنترل مجموعه ای از تقاطع ها با محدودیت های سرعت، تعداد خطوط یا الگوهای ترافیکی متفاوت باشد.
برای افزایش قابلیت اطمینان مدل های یادگیری تقویتی برای کارهای پیچیده با تنوع، محققان MIT الگوریتم کارآمدتری را برای آموزش آنها معرفی کرده اند.
این الگوریتم به صورت استراتژیک بهترین وظایف را برای آموزش یک عامل هوش مصنوعی انتخاب می کند تا بتواند به طور موثر همه وظایف را در مجموعه ای از وظایف مرتبط انجام دهد. در مورد کنترل علائم ترافیکی، هر وظیفه می تواند یک تقاطع در یک فضای کاری باشد که شامل تمام تقاطع های شهر می شود.
این روش با تمرکز بر تعداد کمتری از تقاطع ها که بیشترین سهم را در اثربخشی کلی الگوریتم دارند، عملکرد را به حداکثر می رساند در حالی که هزینه آموزش را پایین نگه می دارد.
محققان دریافتند که روش آنها بین 5 تا 50 برابر کارآمدتر از روش های استاندارد در مجموعه ای از وظایف شبیه سازی شده است. این افزایش کارایی به الگوریتم کمک می کند تا راه حل بهتری را به شیوه ای سریعتر بیاموزد و در نهایت عملکرد عامل هوش مصنوعی را بهبود بخشد.
"ما توانستیم با تفکر خارج از چارچوب، با یک الگوریتم بسیار ساده، بهبودهای عملکردی باورنکردنی را مشاهده کنیم. الگوریتمی که خیلی پیچیده نیست، شانس بیشتری برای پذیرش توسط جامعه دارد، زیرا پیاده سازی آن آسان تر و برای دیگران آسان تر است. نویسنده ارشد، کتی وو، دانشیار توسعه شغلی توماس دی و ویرجینیا دبلیو. کابوت در مهندسی عمران و محیط زیست (CEE) و موسسه داده ها، سیستم ها و جامعه (IDSS)، و عضو آزمایشگاه اطلاعات و سیستم های تصمیم گیری (LIDS).
نویسنده اصلی، جونگ هون چو، دانشجوی کارشناسی ارشد CEE، در این مقاله به او پیوست. ویندولا جایواردانا، دانشجوی کارشناسی ارشد در گروه مهندسی برق و علوم کامپیوتر (EECS). و سیروی لی، دانشجوی کارشناسی ارشد IDSS. این تحقیق در کنفرانس سیستم های پردازش اطلاعات عصبی ارائه خواهد شد.
پیدا کردن حد وسط
برای آموزش الگوریتمی برای کنترل چراغ های راهنمایی در بسیاری از تقاطع های یک شهر، یک مهندس معمولاً بین دو رویکرد اصلی انتخاب می کند. او می تواند یک الگوریتم را برای هر تقاطع به طور مستقل آموزش دهد و فقط از داده های آن تقاطع استفاده کند، یا الگوریتم بزرگتری را با استفاده از داده های همه تقاطع ها آموزش دهد و سپس آن را برای هر یک اعمال کند.
اما هر رویکردی با نقاط ضعف خود همراه است. آموزش یک الگوریتم جداگانه برای هر کار (مانند یک تقاطع معین) یک فرآیند زمان بر است که به مقدار زیادی داده و محاسبات نیاز دارد، در حالی که آموزش یک الگوریتم برای همه وظایف اغلب منجر به عملکرد پایین تر می شود.
وو و همکارانش به دنبال نقطه ای شیرین بین این دو رویکرد بودند.
برای روش خود، زیر مجموعه ای از وظایف را انتخاب می کنند و برای هر کار به طور مستقل یک الگوریتم را آموزش می دهند. مهمتر از همه، آنها به طور استراتژیک وظایف فردی را انتخاب می کنند که به احتمال زیاد عملکرد کلی الگوریتم را در همه وظایف بهبود می بخشد.
آنها از یک ترفند رایج در زمینه یادگیری تقویتی به نام یادگیری انتقال شات صفر استفاده می کنند که در آن یک مدل از قبل آموزش دیده بدون آموزش بیشتر برای یک کار جدید اعمال می شود. با یادگیری انتقالی، مدل اغلب در تکلیف همسایه جدید به خوبی عمل می کند.
وو می گوید: «ما می دانیم که تمرین در تمام وظایف ایده آل خواهد بود، اما به این فکر کردیم که آیا می توانیم با تمرین در زیرمجموعه ای از آن کارها کنار بیاییم، نتیجه را برای همه وظایف اعمال کنیم و همچنان شاهد افزایش عملکرد باشیم.
محققان برای شناسایی وظایفی که باید برای به حداکثر رساندن عملکرد مورد انتظار انتخاب کنند، الگوریتمی به نام یادگیری انتقال مبتنی بر مدل (MBTL) ایجاد کردند.
الگوریتم MBTL دارای دو قطعه است. برای یکی، مدل سازی می کند که اگر هر الگوریتم به طور مستقل روی یک کار آموزش داده شود، چقدر خوب عمل می کند. سپس مدل سازی می کند که عملکرد هر الگوریتم در صورت انتقال به کار دیگری چقدر کاهش می یابد، مفهومی که به عنوان عملکرد تعمیم شناخته می شود.
مدل سازی صریح عملکرد تعمیم به MBTL اجازه می دهد تا ارزش آموزش را در یک کار جدید تخمین بزند.
MBTL این کار را به طور متوالی انجام می دهد، ابتدا وظیفه ای را انتخاب می کند که منجر به بالاترین بهره وری می شود، سپس کارهای اضافی را انتخاب می کند که بزرگترین پیشرفت های حاشیه ای بعدی را در عملکرد کلی ایجاد می کنند.
از آنجایی که MBTL فقط بر روی امیدوار کننده ترین وظایف تمرکز دارد، می تواند کارایی فرآیند آموزش را به طور چشمگیری بهبود بخشد.
کاهش هزینه های آموزشی
هنگامی که محققان این تکنیک را بر روی کارهای شبیه سازی شده، از جمله کنترل علائم ترافیکی، مدیریت توصیه های سرعت در زمان واقعی، و اجرای چندین کار کنترل کلاسیک آزمایش کردند، پنج تا 50 برابر کارآمدتر از روش های دیگر بود.
این بدان معنی است که آنها می توانند با آموزش داده های بسیار کمتر به راه حل مشابهی برسند. به عنوان مثال، با افزایش کارایی 50 برابری، الگوریتم MBTL می تواند تنها بر روی دو کار تمرین کند و عملکردی مشابه با روش استانداردی که از داده های 100 کار استفاده می کند، به دست آورد.
وو می گوید: «از منظر دو رویکرد اصلی، این بدان معناست که داده های 98 کار دیگر ضروری نبودند یا اینکه آموزش در همه 100 کار برای الگوریتم گیج کننده است، بنابراین عملکرد بدتر از ما می شود.
با MBTL، اضافه کردن حتی مقدار کمی از زمان تمرین اضافی می تواند منجر به عملکرد بسیار بهتر شود.
در آینده، محققان قصد دارند الگوریتم های MBTL را طراحی کنند که می تواند به مسائل پیچیده تر مانند فضاهای کاری با ابعاد بالا گسترش یابد. آنها همچنین علاقه مند به اعمال رویکرد خود برای مشکلات دنیای واقعی، به ویژه در سیستم های حرکتی نسل بعدی هستند.
این تحقیق تا حدی توسط جایزه شغلی بنیاد ملی علوم، برنامه بورسیه دکتری بنیاد آموزشی Kwanjeong و بورسیه دکتری رباتیک آمازون تامین می شود.
منبع