ربات های تصادفی قابل اعتمادتر هستند


مهندسان دانشگاه نورث وسترن یک الگوریتم هوش مصنوعی جدید (AI) توسعه داده اند که به طور خاص برای رباتیک هوشمند طراحی شده است. با کمک به روبات‌ها در یادگیری سریع و مطمئن مهارت‌های پیچیده، روش جدید می‌تواند به طور قابل توجهی عملی – و ایمنی – روبات‌ها را برای طیف وسیعی از کاربردها، از جمله خودروهای خودران، هواپیماهای بدون سرنشین، دستیاران خانگی و اتوماسیون بهبود بخشد.

موفقیت این الگوریتم که حداکثر یادگیری تقویتی انتشار (MaxDiff RL) نامیده می‌شود، در توانایی آن در تشویق ربات‌ها به کاوش در محیط‌هایشان تا حد امکان به‌صورت تصادفی به منظور کسب مجموعه‌ای از تجربیات است. این “تصادفی طراحی شده” کیفیت داده هایی را که روبات ها در مورد محیط اطراف خود جمع آوری می کنند، بهبود می بخشد. و با استفاده از داده‌های با کیفیت بالاتر، ربات‌های شبیه‌سازی شده یادگیری سریع‌تر و کارآمدتری را نشان دادند و قابلیت اطمینان و عملکرد کلی خود را بهبود بخشیدند.

ربات‌های شبیه‌سازی‌شده با استفاده از الگوریتم جدید Northwestern، زمانی که در برابر سایر پلت‌فرم‌های هوش مصنوعی آزمایش شدند، به طور مداوم از مدل‌های پیشرفته پیشی گرفتند. در واقع، الگوریتم جدید به قدری خوب کار می کند که روبات ها وظایف جدیدی را یاد می گیرند و سپس با موفقیت آن ها را در یک تلاش انجام می دهند – اولین بار درست انجام می دهند. این کاملاً در تضاد با مدل‌های فعلی هوش مصنوعی است که یادگیری کندتر را از طریق آزمون و خطا امکان‌پذیر می‌سازد.

این تحقیق در روز پنجشنبه (۲ اردیبهشت) در مجله منتشر خواهد شد هوش ماشین طبیعت.

توماس بروئتا از Northwestern که این مطالعه را رهبری می‌کرد، گفت: «سایر چارچوب‌های هوش مصنوعی می‌توانند تا حدودی غیرقابل اعتماد باشند. “گاهی اوقات آنها به طور کامل یک کار را انجام می دهند، اما گاهی اوقات، آنها کاملاً شکست می خورند. با چارچوب ما، تا زمانی که ربات قادر به حل این کار باشد، هر بار که ربات خود را روشن می کنید، می توانید انتظار داشته باشید که این کار را انجام دهد. دقیقاً همان کاری که از آن خواسته شده است، تفسیر موفقیت‌ها و شکست‌های ربات را آسان‌تر می‌کند، که در دنیایی که به طور فزاینده‌ای به هوش مصنوعی وابسته است، بسیار مهم است.

Berrueta یک عضو ریاست جمهوری در Northwestern و Ph.D. کاندیدای مهندسی مکانیک در دانشکده مهندسی مک کورمیک. تاد مورفی، کارشناس رباتیک، استاد مهندسی مکانیک در مک کورمیک و مشاور Berrueta، نویسنده ارشد مقاله است. Berrueta و Murphy به همراه آلیسون پینوسکی، همچنین دکترای خود، این مقاله را نوشتند. نامزد در آزمایشگاه مورفی

بی تنه قطع ارتباط

برای آموزش الگوریتم‌های یادگیری ماشینی، محققان و توسعه‌دهندگان از مقادیر زیادی داده‌های بزرگ استفاده می‌کنند که انسان‌ها با دقت آن‌ها را فیلتر و مدیریت می‌کنند. هوش مصنوعی از این داده های آموزشی با استفاده از آزمون و خطا تا رسیدن به نتایج بهینه یاد می گیرد. در حالی که این فرآیند برای سیستم‌های بدون پیکر مانند ChatGPT و Google Gemini (بارد سابق) به خوبی کار می‌کند، اما برای سیستم‌های هوش مصنوعی مانند روبات‌ها کار نمی‌کند. در عوض، ربات‌ها داده‌ها را خودشان جمع‌آوری می‌کنند – بدون تجملات متصدیان انسانی.

مورفی گفت: «الگوریتم‌های سنتی به دو صورت مجزا با روباتیک سازگار نیستند. “اول، سیستم‌های بی‌پیکر می‌توانند از دنیایی استفاده کنند که قوانین فیزیکی در آن اعمال نمی‌شود. دوم، شکست‌های فردی هیچ عواقبی ندارد. برای کاربردهای علوم کامپیوتر، تنها چیزی که مهم است این است که بیشتر اوقات موفق می‌شود. در رباتیک، یک شکست. می تواند فاجعه بار باشد.”

برای حل این قطع ارتباط، Berrueta، Murphy و Pinosky قصد داشتند یک الگوریتم جدید توسعه دهند که اطمینان حاصل کند روبات ها داده های با کیفیت بالا را در حال حرکت جمع آوری می کنند. MaxDiff RL در هسته خود به روبات‌ها دستور می‌دهد تا به صورت تصادفی‌تر حرکت کنند تا داده‌های کامل و متنوعی را در مورد محیط خود جمع‌آوری کنند. ربات ها با یادگیری از طریق تجربیات تصادفی خودگردان، مهارت های لازم را برای انجام وظایف مفید به دست می آورند.

بار اول درست می شود

برای آزمایش الگوریتم جدید، محققان آن را با مدل های فعلی و پیشرفته مقایسه کردند. با استفاده از شبیه سازی کامپیوتری، محققان از روبات های شبیه سازی شده خواستند تا یک سری وظایف استاندارد را انجام دهند. در کل، روبات‌هایی که از MaxDiff RL استفاده می‌کنند، سریع‌تر از مدل‌های دیگر یاد می‌گیرند. آنها همچنین وظایف را بسیار پایدارتر و قابل اعتمادتر از دیگران به درستی انجام دادند.

شاید حتی تاثیرگذارتر: روبات‌هایی که از روش MaxDiff RL استفاده می‌کنند، اغلب موفق می‌شوند یک کار را در یک تلاش به درستی انجام دهند. و این حتی زمانی است که آنها بدون آگاهی شروع کردند.

Berrueta گفت: «روبات‌های ما سریع‌تر و چابک‌تر بودند – می‌توانستند به طور مؤثر آنچه را یاد گرفته‌اند تعمیم دهند و آن را در موقعیت‌های جدید به کار ببرند. برای کاربردهای دنیای واقعی که روبات‌ها نمی‌توانند زمان بی‌پایانی برای آزمون و خطا داشته باشند، این یک مزیت بزرگ است.

از آنجایی که MaxDiff RL یک الگوریتم عمومی است، می توان از آن برای برنامه های مختلف استفاده کرد. محققان امیدوارند که به مسائل اساسی که مانع از این رشته می‌شود، بپردازد و در نهایت راه را برای تصمیم‌گیری قابل اعتماد در رباتیک هوشمند هموار کند.

پینوسکی گفت: «این نباید فقط برای وسایل نقلیه روباتیکی که در اطراف حرکت می کنند استفاده شود. همچنین می‌توان از آن برای ربات‌های ثابت استفاده کرد – مانند یک بازوی رباتیک در آشپزخانه که یاد می‌گیرد چگونه ماشین ظرفشویی را بارگیری کند. با پیچیده‌تر شدن وظایف و محیط‌های فیزیکی، نقش تجسم برای در نظر گرفتن در طول فرآیند یادگیری بسیار مهم‌تر می‌شود. این یک گام مهم به سمت سیستم‌های واقعی است که کارهای پیچیده‌تر و جالب‌تری را انجام می‌دهند.”

مطالعه، “یادگیری تقویت حداکثر انتشار” توسط دفتر تحقیقات ارتش ایالات متحده (شماره کمک هزینه W911NF-19-1-0233) و دفتر تحقیقات نیروی دریایی ایالات متحده (شماره کمک مالی N00014-21-1-2706) پشتیبانی شد.



منبع

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]