کنترل ربات سگ در مصرف انرژی
فلیکس راپرت اولین نویسنده کتاب “آموزش تطبیق پلاستیک دینامیک ربات در ژنراتورهای الگوی مرکزی حلقه بسته“، که در 18 جولای 2022 در مجله Nature Machine Intelligence منتشر خواهد شد.
ربات راپرت پس از یادگیری راه رفتن تنها در یک ساعت، از مکانیک پیچیده پاهای خود به خوبی استفاده می کند. یک الگوریتم بهینهسازی بیزی، یادگیری را راهنمایی میکند: اطلاعات سنسور پای اندازهگیری شده با دادههای هدف از نخاع مجازی مدلسازیشده که بهعنوان یک برنامه در رایانه روبات اجرا میشود، مطابقت داده میشود. ربات با مقایسه مداوم اطلاعات حسگر ارسالی و مورد انتظار، اجرای حلقه های بازتابی و تطبیق الگوهای کنترل موتور خود راه رفتن را یاد می گیرد.
تا زمانی که حیوان جوان روی یک سطح کاملا صاف راه میرود، CPG میتواند برای کنترل سیگنالهای حرکتی از نخاع کافی باشد. با این حال، یک ضربه کوچک روی زمین، راه رفتن را تغییر می دهد. رفلکس ها وارد می شوند و الگوهای حرکتی را تنظیم می کنند تا حیوان از افتادن جلوگیری کند. این تغییرات لحظه ای در سیگنال های حرکتی برگشت پذیر یا “الاستیک” هستند و الگوهای حرکتی پس از اختلال به پیکربندی اولیه خود باز می گردند. اما اگر حیوان در بسیاری از چرخههای حرکتی دست از لغزش نکشد – علیرغم رفلکسهای فعال -، الگوهای حرکتی باید دوباره یاد بگیرند و «پلاستیک» شوند، یعنی غیرقابل برگشت. در حیوان تازه متولد شده، CPG ها در ابتدا هنوز به اندازه کافی تنظیم نشده اند و حیوان در زمین های هموار یا ناهموار تلو تلو می خورد. اما حیوان به سرعت یاد می گیرد که چگونه CPG ها و رفلکس هایش عضلات و تاندون های پا را کنترل می کنند.
الگوریتم یادگیری، نخاع مجازی را بهینه می کند
یک زرافه یا کره اسب تازه متولد شده باید یاد بگیرد که هر چه سریعتر روی پاهای خود راه برود تا از شکارچیان جلوگیری کند. حیوانات با شبکه های هماهنگی ماهیچه ای که در نخاع آنها قرار دارد متولد می شوند. با این حال، یادگیری هماهنگی دقیق عضلات و تاندونهای پا کمی زمان میبرد. در ابتدا، نوزادان حیوانات به شدت به رفلکس های نخاعی با سیم سخت متکی هستند. رفلکسهای کنترل حرکتی در حالی که تا حدودی اساسیتر هستند، به حیوان کمک میکنند تا در اولین تلاش برای راه رفتن از افتادن و آسیب دیدن خود جلوگیری کند. کنترل ماهیچهای پیشرفتهتر و دقیقتر زیر باید انجام شود تا در نهایت سیستم عصبی به خوبی با عضلات پا و تاندونهای حیوان جوان سازگار شود. دیگر از تلو خوردن کنترل نشده خبری نیست — حیوان جوان اکنون می تواند با بزرگسالان همگام شود.
روپرت توضیح میدهد: «روبات ما عملاً «متولد» شده است و چیزی در مورد آناتومی پاهای خود یا نحوه عملکرد آنها نمیداند. CPG شبیه هوش راه رفتن خودکار داخلی است که طبیعت فراهم می کند و ما آن را به ربات منتقل کرده ایم. رایانه سیگنال هایی تولید می کند که موتورهای پاها را کنترل می کند و ربات در ابتدا راه می رود و تلو تلو می خورد. داده ها از حسگرها به سمت ربات باز می گردند. نخاع مجازی که در آن دادههای سنسور و CPG با هم مقایسه میشوند. اگر دادههای حسگر با دادههای مورد انتظار مطابقت نداشته باشد، الگوریتم یادگیری رفتار راه رفتن را تغییر میدهد تا زمانی که ربات به خوبی راه برود، و بدون زمین خوردن. تغییر خروجی CPG در حالی که رفلکسها فعال هستند و نظارت بر تلو تلو خوردن ربات بخش اصلی فرآیند یادگیری است.”
فلیکس روپرت، دانشجوی سابق دکترا در گروه تحقیقاتی پویا در MPI-IS میگوید: «بهعنوان مهندس و متخصص رباتیک، ما با ساختن رباتی که دارای رفلکسهایی مانند حیوان است و از اشتباهات درس میگیرد، به دنبال پاسخ هستیم. “اگر حیوانی تلو تلو بخورد، آیا این یک اشتباه است؟ نه اگر یک بار اتفاق بیفتد. اما اگر مرتباً تلو تلو بخورد، میزان خوب راه رفتن ربات را به ما نشان می دهد.”
محققان موسسه سیستمهای هوشمند ماکس پلانک (MPI-IS) در اشتوتگارت یک مطالعه تحقیقاتی انجام دادند تا دریابند چگونه حیوانات راه رفتن را یاد میگیرند و از سکندری یاد میگیرند. آنها یک ربات چهار پا به اندازه سگ ساختند که به آنها در کشف جزئیات کمک کرد.
الگوریتم یادگیری پارامترهای کنترلی یک مولد الگوی مرکزی (CPG) را تطبیق می دهد. در انسان و حیوان، این مولدهای الگوی مرکزی شبکهای از نورونها در نخاع هستند که انقباضات دورهای عضلانی را بدون ورودی مغز ایجاد میکنند. شبکه های مولد الگوی مرکزی به تولید کارهای ریتمیک مانند راه رفتن، پلک زدن یا هضم کمک می کنند. علاوه بر این، رفلکسها اعمال کنترل غیرارادی حرکتی هستند که توسط مسیرهای عصبی رمزگذاری شده ایجاد میشوند که حسگرهای موجود در پا را به نخاع متصل میکنند.
الکساندر بدری اسپروویتز، نویسنده این نشریه با راپرت و سرپرست گروه تحقیقاتی حرکت پویا، میگوید: “ما نمیتوانیم به راحتی در مورد نخاع یک حیوان زنده تحقیق کنیم. اما میتوانیم در ربات از آن الگوبرداری کنیم.” “ما می دانیم که این CPG ها در بسیاری از حیوانات وجود دارند. می دانیم که رفلکس ها تعبیه شده اند؛ اما چگونه می توانیم هر دو را ترکیب کنیم تا حیوانات حرکات را با رفلکس ها و CPG ها بیاموزند؟ این یک تحقیق اساسی در تقاطع بین رباتیک و زیست شناسی است. مدل رباتیک به شما کمک می کند. ما به سوالاتی پاسخ می دهیم که زیست شناسی به تنهایی نمی تواند به آنها پاسخ دهد.”
همین امر در مورد سگ ربات لابرادور به نام مورتی نیز صادق است. حتی بیشتر از آن، ربات الگوهای حرکتی خود را سریعتر از یک حیوان، در حدود یک ساعت بهینه می کند. CPG مورتی روی یک کامپیوتر کوچک و سبک شبیه سازی شده است که حرکت پاهای ربات را کنترل می کند. این نخاع مجازی در پشت ربات چهارپا در جایی که سر قرار می گیرد قرار می گیرد. در طول ساعتی که طول میکشد تا ربات به آرامی راه برود، دادههای حسگر از پای ربات بهطور پیوسته با کاهش پیشبینیشده توسط CPG ربات مقایسه میشود. اگر ربات زمین بخورد، الگوریتم یادگیری میزان چرخش پاها به جلو و عقب، سرعت چرخش پاها و مدت زمان قرار گرفتن پا روی زمین را تغییر می دهد. حرکت تنظیم شده همچنین بر میزان استفاده ربات از مکانیک پاهای منطبق بر آن تأثیر می گذارد. در طول فرآیند یادگیری، CPG سیگنالهای موتوری سازگار ارسال میکند تا ربات از این پس کمتر دچار لغزش شود و راه رفتن خود را بهینه کند. در این چارچوب، نخاع مجازی هیچ دانش صریحی در مورد طراحی پای ربات، موتورها و فنرهای آن ندارد. بدون دانستن چیزی در مورد فیزیک ماشین، فاقد یک “مدل” ربات است.
کامپیوتر مورتی در فرآیند راه رفتن تنها پنج وات انرژی می گیرد. رباتهای چهارپا صنعتی از سازندگان برجسته، که یاد گرفتهاند با کمک کنترلکنندههای پیچیده کار کنند، انرژی بسیار بیشتری دارند. کنترلکنندههای آنها با دانش دقیق جرم و هندسه بدن ربات کدگذاری میشوند – با استفاده از مدلی از ربات. آنها معمولاً چندین ده تا چند صد وات توان مصرف می کنند. هر دو نوع ربات به صورت پویا و کارآمد کار می کنند، اما مصرف انرژی محاسباتی در مدل اشتوتگارت بسیار کمتر است. همچنین بینش های مهمی در مورد آناتومی حیوانات ارائه می دهد.