مهندسان پن الگوی غیرمنتظره ای را در نحوه یادگیری شبکه های عصبی – سیستم هایی که انقلاب هوش مصنوعی امروزی را رهبری می کنند – کشف کرده اند که پاسخی به یکی از مهم ترین سؤالات بی پاسخ در هوش مصنوعی ارائه می دهد: چرا این روش ها به خوبی کار می کنند.
شبکههای عصبی با الهام از نورونهای بیولوژیکی، برنامههای رایانهای هستند که دادهها را دریافت میکنند و خود را با تغییرات مکرر در وزنها یا پارامترهای حاکم بر خروجیشان آموزش میدهند، دقیقاً مانند نورونها که اتصالات خود را با یکدیگر تنظیم میکنند. نتیجه نهایی مدلی است که به شبکه اجازه می دهد تا بر روی داده هایی که قبلا ندیده است پیش بینی کند. شبکههای عصبی امروزه اساساً در تمام زمینههای علوم و مهندسی، از پزشکی گرفته تا کیهانشناسی، شناسایی سلولهای بالقوه بیمار و کشف کهکشانهای جدید مورد استفاده قرار میگیرند.
در مقاله جدید منتشر شده در مجموعه مقالات آکادمی ملی علوم (PNAS)، پراتیک چاوداری، استادیار مهندسی برق و سیستم (ESE) و هیئت علمی اصلی در آزمایشگاه عمومی رباتیک، اتوماسیون، حس و ادراک (GRASP)، و نویسنده همکار جیمز ستنا، جیمز گیلبرت وایت استاد علوم فیزیک در دانشگاه کرنل نشان میدهد که شبکههای عصبی، صرف نظر از طراحی، اندازه یا دستورالعمل آموزشی آنها، زمانی که تصاویری برای طبقهبندی ارائه میشوند، مسیر یکسانی را از نادانی به حقیقت دنبال میکنند.
جیالین مائو، دانشجوی دکترای ریاضیات کاربردی و علوم محاسباتی در دانشکده هنر و علوم دانشگاه پنسیلوانیا، نویسنده اصلی مقاله است.
چودهری میگوید: «فرض کنید وظیفه شناسایی تصاویر گربهها و سگها است. “شما ممکن است از سبیل ها برای طبقه بندی آنها استفاده کنید، در حالی که شخص دیگری ممکن است از شکل گوش ها استفاده کند — شما فرض می کنید که شبکه های مختلف از پیکسل های موجود در تصاویر به روش های مختلف استفاده می کنند و برخی از شبکه ها مطمئناً نتایج بهتری نسبت به سایرین به دست می آورند. یک اشتراک بسیار قوی در نحوه یادگیری همه آنها وجود دارد، این چیزی است که نتیجه را بسیار شگفت انگیز می کند.
نتیجه نه تنها عملکرد درونی شبکههای عصبی را روشن میکند، بلکه اشارهای به امکان توسعه الگوریتمهای بسیار کارآمد دارد که میتوانند تصاویر را در کسری از زمان طبقهبندی کنند، با کسری از هزینه. در واقع، یکی از بالاترین هزینههای مرتبط با هوش مصنوعی، قدرت محاسباتی عظیم مورد نیاز برای توسعه شبکههای عصبی است. چودهری می گوید: «این نتایج نشان می دهد که ممکن است راه های جدیدی برای آموزش آنها وجود داشته باشد.
برای نشان دادن پتانسیل این روش جدید، چودهری پیشنهاد میکند شبکهها را بهعنوان تلاش برای ترسیم مسیری روی نقشه تصور کنید. او می گوید: «اجازه دهید دو نقطه را تصور کنیم. “جهل، جایی که شبکه چیزی در مورد برچسبهای صحیح نمیداند، و حقیقت، جایی که میتواند به درستی همه تصاویر را طبقهبندی کند. آموزش یک شبکه با ترسیم مسیری بین نادانی و حقیقت در فضای احتمال – در میلیاردها بعد، مطابقت دارد. معلوم می شود که شبکه های مختلف مسیر یکسانی را طی می کنند و این مسیر بیشتر شبیه سه، چهار یا پنج بعدی است.”
به عبارت دیگر، با وجود پیچیدگی خیره کننده شبکه های عصبی، طبقه بندی تصاویر – یکی از وظایف اساسی سیستم های هوش مصنوعی – تنها به بخش کوچکی از این پیچیدگی نیاز دارد. چاوداری میگوید: «این در واقع شواهدی است که نشان میدهد جزئیات طراحی شبکه، اندازه یا دستور العملهای آموزشی کمتر از آنچه ما فکر میکنیم اهمیت دارد.
چودهاری و ستنا برای رسیدن به این بینش، ابزارهایی را از هندسه اطلاعات به عاریت گرفتند، حوزه ای که هندسه و آمار را در کنار هم قرار می دهد. با در نظر گرفتن هر شبکه به عنوان توزیع احتمالات، محققان توانستند یک مقایسه سیب به سیب واقعی در بین شبکه ها انجام دهند و شباهت های غیرمنتظره و اساسی آنها را آشکار کنند. چودهری می گوید: «به دلیل ویژگی های فضاهای با ابعاد بالا، همه نقاط از یکدیگر دور هستند. ما ابزارهای پیچیده تری را توسعه دادیم که تصویر واضح تری از تفاوت های شبکه ها به ما می دهد.
این تیم با استفاده از طیف گسترده ای از تکنیک ها، صدها هزار شبکه، از انواع مختلف، از جمله پرسپترون های چند لایه، شبکه های کانولوشنال و باقیمانده، و ترانسفورماتورهایی را که در قلب سیستم هایی مانند ChatGPT قرار دارند، آموزش دادند. چودهری می گوید: «سپس این تصویر زیبا ظاهر شد. احتمالات خروجی این شبکهها روی این منیفولدهای نازک در فضاهای غولپیکر بهخوبی در کنار هم قرار گرفتند.» به عبارت دیگر، مسیرهایی که یادگیری شبکهها را نشان میدهند با یکدیگر همسو میشوند و نشان میدهند که آنها یاد گرفتهاند که تصاویر را به همان شیوه طبقهبندی کنند.
Chaudhari دو توضیح بالقوه برای این پدیده شگفتانگیز ارائه میدهد: اول، شبکههای عصبی هرگز بر روی مجموعههای تصادفی پیکسلها آموزش داده نمیشوند. چودهری می گوید: «صدای نمک و فلفل را تصور کنید. “این به وضوح یک تصویر است، اما نه چندان جالب – تصاویر اشیاء واقعی مانند مردم و حیوانات، زیرمجموعه کوچک و کوچکی از فضای همه تصاویر ممکن است.” به عبارت دیگر، درخواست از یک شبکه عصبی برای طبقهبندی تصاویری که برای انسانها مهم هستند، سادهتر از آن چیزی است که به نظر میرسد، زیرا تصاویر احتمالی زیادی وجود دارد که شبکه هرگز نباید آنها را در نظر بگیرد.
دوم، برچسب هایی که شبکه های عصبی استفاده می کنند تا حدودی خاص هستند. انسانها اشیاء را به دستههای وسیعی مانند سگ و گربه گروهبندی میکنند و برای هر عضو خاصی از هر نژاد حیوانات کلمات جداگانهای ندارند. چودهری میگوید: «اگر شبکهها مجبور بودند از تمام پیکسلها برای پیشبینی استفاده کنند، آنگاه شبکهها راههای بسیار بسیار متفاوتی را کشف میکردند». اما ویژگیهایی که مثلاً گربهها و سگها را از هم متمایز میکنند، خود ابعاد پایینی دارند. چاوداری می افزاید: «ما معتقدیم که این شبکه ها همان ویژگی های مرتبط را پیدا می کنند، احتمالاً با شناسایی مشترکاتی مانند گوش ها، چشم ها، نشانه ها و غیره.
کشف الگوریتمی که به طور مداوم مسیر مورد نیاز برای آموزش یک شبکه عصبی را برای طبقه بندی تصاویر با استفاده از تعداد انگشت شماری از ورودی ها پیدا کند، یک چالش حل نشده است. چودهری می گوید: «این سوال میلیارد دلاری است. “آیا میتوانیم شبکههای عصبی را ارزان آموزش دهیم؟ این مقاله شواهدی را ارائه میدهد که ممکن است بتوانیم. ما فقط نمیدانیم چگونه.”
این مطالعه در دانشکده مهندسی و علوم کاربردی دانشگاه پنسیلوانیا و دانشگاه کرنل انجام شد. این توسط کمک های مالی بنیاد ملی علوم، مؤسسه ملی بهداشت، دفتر تحقیقات نیروی دریایی، هوش مصنوعی اریک و وندی اشمیت در کمک هزینه تحصیلی پسادکتری علوم و اعتبارات محاسبات ابری از خدمات وب آمازون پشتیبانی شد.
سایر نویسندگان شامل راهول رامش در مهندسی پن. مالش یانگ در دانشکده هنر و علوم دانشگاه پنسیلوانیا. Itay Griniasty و Han Kheng Teoh در دانشگاه Cornell; و مارک کی ترانستروم در دانشگاه بریگام یانگ.