مهندسان دانشگاه نورث وسترن یک الگوریتم هوش مصنوعی جدید (AI) توسعه داده اند که به طور خاص برای رباتیک هوشمند طراحی شده است. با کمک به روباتها در یادگیری سریع و مطمئن مهارتهای پیچیده، روش جدید میتواند به طور قابل توجهی عملی – و ایمنی – روباتها را برای طیف وسیعی از کاربردها، از جمله خودروهای خودران، هواپیماهای بدون سرنشین، دستیاران خانگی و اتوماسیون بهبود بخشد.
موفقیت این الگوریتم که حداکثر یادگیری تقویتی انتشار (MaxDiff RL) نامیده میشود، در توانایی آن در تشویق رباتها به کاوش در محیطهایشان تا حد امکان بهصورت تصادفی به منظور کسب مجموعهای از تجربیات است. این “تصادفی طراحی شده” کیفیت داده هایی را که روبات ها در مورد محیط اطراف خود جمع آوری می کنند، بهبود می بخشد. و با استفاده از دادههای با کیفیت بالاتر، رباتهای شبیهسازی شده یادگیری سریعتر و کارآمدتری را نشان دادند و قابلیت اطمینان و عملکرد کلی خود را بهبود بخشیدند.
رباتهای شبیهسازیشده با استفاده از الگوریتم جدید Northwestern، زمانی که در برابر سایر پلتفرمهای هوش مصنوعی آزمایش شدند، به طور مداوم از مدلهای پیشرفته پیشی گرفتند. در واقع، الگوریتم جدید به قدری خوب کار می کند که روبات ها وظایف جدیدی را یاد می گیرند و سپس با موفقیت آن ها را در یک تلاش انجام می دهند – اولین بار درست انجام می دهند. این کاملاً در تضاد با مدلهای فعلی هوش مصنوعی است که یادگیری کندتر را از طریق آزمون و خطا امکانپذیر میسازد.
این تحقیق در روز پنجشنبه (۲ اردیبهشت) در مجله منتشر خواهد شد هوش ماشین طبیعت.
توماس بروئتا از Northwestern که این مطالعه را رهبری میکرد، گفت: «سایر چارچوبهای هوش مصنوعی میتوانند تا حدودی غیرقابل اعتماد باشند. “گاهی اوقات آنها به طور کامل یک کار را انجام می دهند، اما گاهی اوقات، آنها کاملاً شکست می خورند. با چارچوب ما، تا زمانی که ربات قادر به حل این کار باشد، هر بار که ربات خود را روشن می کنید، می توانید انتظار داشته باشید که این کار را انجام دهد. دقیقاً همان کاری که از آن خواسته شده است، تفسیر موفقیتها و شکستهای ربات را آسانتر میکند، که در دنیایی که به طور فزایندهای به هوش مصنوعی وابسته است، بسیار مهم است.
Berrueta یک عضو ریاست جمهوری در Northwestern و Ph.D. کاندیدای مهندسی مکانیک در دانشکده مهندسی مک کورمیک. تاد مورفی، کارشناس رباتیک، استاد مهندسی مکانیک در مک کورمیک و مشاور Berrueta، نویسنده ارشد مقاله است. Berrueta و Murphy به همراه آلیسون پینوسکی، همچنین دکترای خود، این مقاله را نوشتند. نامزد در آزمایشگاه مورفی
بی تنه قطع ارتباط
برای آموزش الگوریتمهای یادگیری ماشینی، محققان و توسعهدهندگان از مقادیر زیادی دادههای بزرگ استفاده میکنند که انسانها با دقت آنها را فیلتر و مدیریت میکنند. هوش مصنوعی از این داده های آموزشی با استفاده از آزمون و خطا تا رسیدن به نتایج بهینه یاد می گیرد. در حالی که این فرآیند برای سیستمهای بدون پیکر مانند ChatGPT و Google Gemini (بارد سابق) به خوبی کار میکند، اما برای سیستمهای هوش مصنوعی مانند روباتها کار نمیکند. در عوض، رباتها دادهها را خودشان جمعآوری میکنند – بدون تجملات متصدیان انسانی.
مورفی گفت: «الگوریتمهای سنتی به دو صورت مجزا با روباتیک سازگار نیستند. “اول، سیستمهای بیپیکر میتوانند از دنیایی استفاده کنند که قوانین فیزیکی در آن اعمال نمیشود. دوم، شکستهای فردی هیچ عواقبی ندارد. برای کاربردهای علوم کامپیوتر، تنها چیزی که مهم است این است که بیشتر اوقات موفق میشود. در رباتیک، یک شکست. می تواند فاجعه بار باشد.”
برای حل این قطع ارتباط، Berrueta، Murphy و Pinosky قصد داشتند یک الگوریتم جدید توسعه دهند که اطمینان حاصل کند روبات ها داده های با کیفیت بالا را در حال حرکت جمع آوری می کنند. MaxDiff RL در هسته خود به روباتها دستور میدهد تا به صورت تصادفیتر حرکت کنند تا دادههای کامل و متنوعی را در مورد محیط خود جمعآوری کنند. ربات ها با یادگیری از طریق تجربیات تصادفی خودگردان، مهارت های لازم را برای انجام وظایف مفید به دست می آورند.
بار اول درست می شود
برای آزمایش الگوریتم جدید، محققان آن را با مدل های فعلی و پیشرفته مقایسه کردند. با استفاده از شبیه سازی کامپیوتری، محققان از روبات های شبیه سازی شده خواستند تا یک سری وظایف استاندارد را انجام دهند. در کل، روباتهایی که از MaxDiff RL استفاده میکنند، سریعتر از مدلهای دیگر یاد میگیرند. آنها همچنین وظایف را بسیار پایدارتر و قابل اعتمادتر از دیگران به درستی انجام دادند.
شاید حتی تاثیرگذارتر: روباتهایی که از روش MaxDiff RL استفاده میکنند، اغلب موفق میشوند یک کار را در یک تلاش به درستی انجام دهند. و این حتی زمانی است که آنها بدون آگاهی شروع کردند.
Berrueta گفت: «روباتهای ما سریعتر و چابکتر بودند – میتوانستند به طور مؤثر آنچه را یاد گرفتهاند تعمیم دهند و آن را در موقعیتهای جدید به کار ببرند. برای کاربردهای دنیای واقعی که روباتها نمیتوانند زمان بیپایانی برای آزمون و خطا داشته باشند، این یک مزیت بزرگ است.
از آنجایی که MaxDiff RL یک الگوریتم عمومی است، می توان از آن برای برنامه های مختلف استفاده کرد. محققان امیدوارند که به مسائل اساسی که مانع از این رشته میشود، بپردازد و در نهایت راه را برای تصمیمگیری قابل اعتماد در رباتیک هوشمند هموار کند.
پینوسکی گفت: «این نباید فقط برای وسایل نقلیه روباتیکی که در اطراف حرکت می کنند استفاده شود. همچنین میتوان از آن برای رباتهای ثابت استفاده کرد – مانند یک بازوی رباتیک در آشپزخانه که یاد میگیرد چگونه ماشین ظرفشویی را بارگیری کند. با پیچیدهتر شدن وظایف و محیطهای فیزیکی، نقش تجسم برای در نظر گرفتن در طول فرآیند یادگیری بسیار مهمتر میشود. این یک گام مهم به سمت سیستمهای واقعی است که کارهای پیچیدهتر و جالبتری را انجام میدهند.”
مطالعه، “یادگیری تقویت حداکثر انتشار” توسط دفتر تحقیقات ارتش ایالات متحده (شماره کمک هزینه W911NF-19-1-0233) و دفتر تحقیقات نیروی دریایی ایالات متحده (شماره کمک مالی N00014-21-1-2706) پشتیبانی شد.