انتشار: آذر 15، 1403
بروزرسانی: 15 آذر 1404

کمک به ربات ها در تصمیم گیری درست در زمان واقعی

در سال 2018، برنامه AlphaZero Google DeepMind بازی های شطرنج، شوگی و گو را با استفاده از یادگیری ماشینی و یک الگوریتم ویژه برای تعیین بهترین حرکات برای برنده شدن در یک بازی در یک شبکه تعریف شده به خود آموزش داد. اکنون، تیمی از محققان Caltech الگوریتم مشابهی را برای ربات های خودمختار توسعه داده اند - یک سیستم کنترل برنامه ریزی و تصمیم گیری که به ربات هایی که آزادانه حرکت می کنند کمک می کند بهترین حرکات را هنگام حرکت در دنیای واقعی تعیین کنند.

Soon-Jo Chung، پروفسور کنترل و سیستم های دینامیکی در کالتک و یک کارشناس ارشد، می گوید: «الگوریتم ما در واقع همه حرکات ممکن و مهم را استراتژی می کند و سپس کاوش می کند و بهترین را از طریق شبیه سازی پویا، مانند انجام بسیاری از بازی های شبیه سازی شده با روبات های متحرک انتخاب می کند. دانشمند پژوهشی در JPL، که Caltech آن را برای ناسا مدیریت می کند. نوآوری مهم در اینجا این است که ما یک روش بسیار کارآمد برای یافتن آن حرکت ایمن بهینه که روش های مبتنی بر بهینه سازی معمولی هرگز پیدا نمی کنند، استخراج کرده ایم.

این تیم تکنیکی را که آنها آن را جستجوی درخت گسترش طیفی (SETS) می نامند، در مقاله جلد دسامبر مجله توصیف می کنند. علم رباتیک.

بسیاری از ربات ها می توانند کاملا آزادانه و در هر جهتی حرکت کنند. به عنوان مثال، یک ربات انسان نما را در نظر بگیرید که برای کمک به یک سالمند در خانه طراحی شده است. چنین رباتی باید بتواند به طرق مختلف و اساساً در هر جهتی در داخل فضا حرکت کند زیرا در حین انجام وظایف خود با موانع یا رویدادهای غیرمنتظره روبرو می شود. مجموعه حرکات، موانع و چالش های آن ربات با حرکات یک ماشین خودران بسیار متفاوت خواهد بود.

پس چگونه یک الگوریتم واحد می تواند سیستم های روباتیک مختلف را راهنمایی کند تا بهترین تصمیم را برای حرکت در محیط اطراف خود بگیرند؟

جان لاتروپ، دانشجوی کارشناسی ارشد در سیستم های کنترل و دینامیک می گوید: «نمی خواهید یک طراح مجبور شود وارد این حرکات شود و بگوید: «این مجموعه ای از حرکات گسسته است که ربات باید بتواند انجام دهد.» در Caltech و نویسنده ارشد مقاله جدید. "برای غلبه بر این، ما با SETS آمدیم."

SETS از تئوری کنترل و جبر خطی برای یافتن حرکات طبیعی استفاده می کند که از قابلیت های یک پلت فرم روباتیک تا حد زیادی در یک محیط فیزیکی استفاده می کنند.

مفهوم اساسی اساسی مبتنی بر جستجوی درخت مونت کارلو است، یک الگوریتم تصمیم گیری که توسط AlphaZero گوگل نیز استفاده می شود. در اینجا، مونت کارلو اساساً به معنای چیزی تصادفی است، و جستجوی درختی به پیمایش یک ساختار شاخه ای اشاره دارد که روابط داده ها را در یک سیستم نشان می دهد. در چنین درختی، یک ریشه به گره های به اصطلاح فرزند منشعب می شود که توسط لبه ها به هم متصل می شوند. با استفاده از جستجوی درخت مونت کارلو برای بازی هایی مانند Go، حرکات ممکن به صورت گره های جدید نشان داده می شوند و درخت بزرگ تر می شود، زیرا نمونه های تصادفی بیشتری از مسیرهای ممکن انجام می شود. الگوریتم حرکات ممکن را برای دیدن نتایج نهایی گره های مختلف اجرا می کند و سپس یکی را انتخاب می کند که بهترین نتیجه را بر اساس ارزش گذاری نقطه ای ارائه می دهد.

لاتروپ توضیح می دهد که مشکل این است که هنگام استفاده از این ساختار درختی منشعب برای سیستم های دینامیکی پیوسته مانند روبات هایی که در دنیای فیزیکی کار می کنند، تعداد کل مسیرها در درخت به طور تصاعدی رشد می کند. او می گوید: «برای برخی مشکلات، تلاش برای شبیه سازی تک تک احتمال ها و سپس کشف اینکه کدام یک بهترین است، سال ها، شاید صدها سال طول می کشد».

برای غلبه بر این، SETS از یک معاوضه اکتشاف/ بهره برداری بهره می برد. لاتروپ می گوید: «ما می خواهیم مسیرهایی را شبیه سازی کنیم که قبلاً بررسی نکرده ایم - این اکتشاف است. "و ما می خواهیم به دنبال مسیرهایی باشیم که قبلاً پاداش بالایی به همراه داشته اند - این همان بهره برداری است. با ایجاد تعادل بین اکتشاف و بهره برداری، الگوریتم می تواند به سرعت به راه حل بهینه در بین تمام مسیرهای ممکن همگرا شود."

به عنوان مثال، اگر یک ربات شروع به محاسبه چند عمل احتمالی کند که تشخیص می دهد باعث کوبیدن آن به دیوار می شود، نیازی به بررسی هیچ یک از گره های دیگر در آن شاخه از درخت نیست.

بنجامین ریویر (PhD '24)، محقق فوق دکترا در رشته های مکانیک و عمران می گوید: «این مبادله اکتشاف و بهره برداری و جستجو بر روی حرکات طبیعی ربات، ربات های ما را قادر می سازد تا در زمان واقعی فکر کنند، حرکت کنند و با اطلاعات جدید سازگار شوند. مهندسی در Caltech و نویسنده ارشد مقاله.

SETS می تواند کل جستجوی درخت را در حدود یک دهم ثانیه اجرا کند. در این مدت، می تواند هزاران تا ده ها هزار مسیر ممکن را شبیه سازی کند، بهترین را انتخاب کند و سپس عمل کند. این حلقه بارها و بارها ادامه می یابد و به سیستم روباتیک این توانایی را می دهد که در هر ثانیه تصمیمات زیادی بگیرد.

یکی از ویژگی های کلیدی الگوریتم SETS این است که می توان آن را اساساً برای هر پلتفرم رباتیکی اعمال کرد. لازم نیست ویژگی ها و قابلیت ها به صورت جداگانه برنامه ریزی شوند. در مقاله جدید، چانگ و همکارانش کاربرد موفقیت آمیز الگوریتم را در سه تنظیمات آزمایشی کاملاً متفاوت نشان می دهند - چیزی که در مقالات روباتیک بسیار نادر است.

در اولین مورد، یک پهپاد کوادروتور قادر بود چهار توپ سفید معلق را مشاهده کند و در عین حال از چهار توپ نارنجی پرهیز کند، همه اینها در حین حرکت در یک فرودگاه مملو از جریان های هوای خطرناک یا گرمایی تصادفی. آزمایش پهپاد در مرکز سیستم ها و فناوری های خودمختار کالتک (CAST) انجام شد. در مرحله دوم، الگوریتم یک راننده انسانی یک وسیله نقلیه زمینی ردیابی شده را تقویت کرد تا در مسیری باریک و پر پیچ و خم بدون برخورد به ریل های کناری حرکت کند. و در تنظیم نهایی، SETS به یک جفت فضاپیمای متصل کمک کرد تا عامل سومی را که می تواند نمایانگر یک فضاپیمای دیگر، یک سیارک یا یک شی دیگر باشد، بگیرد و هدایت کند.

تیمی از دانشجویان و محققین Caltech در حال حاضر نسخه ای از الگوریتم SETS را بر روی خودروی Indy که در نمایشگاه Indy Autonomous در نمایشگاه Consumer Electronics (CES) در لاس وگاس در 9 ژانویه شرکت خواهد کرد، اعمال می کنند.

این کار توسط برنامه کنترل درون نگر یادگیری (LINC) آژانس پروژه های تحقیقاتی پیشرفته دفاعی، شرکت هوافضا و سوپرنال پشتیبانی می شود و تا حدی بر اساس کار پشتیبانی شده توسط برنامه کمک هزینه تحصیلی پژوهشی فارغ التحصیلان بنیاد ملی علوم است.

منبع

کمک به ربات ها در تصمیم گیری درست در زمان واقعی

نویسنده: تیم تحریریه Matthew Newman