با حرکت رو به جلو، آکیورک قصد دارد به کاوش در یادگیری درون متنی با توابع پیچیدهتر از مدلهای خطی که در این کار مطالعه کردهاند، ادامه دهد. آنها همچنین میتوانند این آزمایشها را روی مدلهای زبانی بزرگ اعمال کنند تا ببینند آیا رفتارهای آنها نیز با الگوریتمهای یادگیری ساده توصیف میشود یا خیر. علاوه بر این، او میخواهد در انواع دادههای پیشآموزشی که میتوانند یادگیری درون زمینهای را فعال کنند، عمیقتر کند.
آکیورک میگوید: “با این کار، مردم اکنون میتوانند تجسم کنند که چگونه این مدلها میتوانند از نمونهها بیاموزند. بنابراین، امید من این است که دیدگاه برخی افراد را در مورد یادگیری درون زمینهای تغییر دهد.” “این مدل ها آنقدرها که مردم فکر می کنند احمق نیستند. آنها فقط این کارها را حفظ نمی کنند. آنها می توانند کارهای جدید را یاد بگیرند و ما نشان داده ایم که چگونه می توان این کار را انجام داد.”
منبع
دانشمندان MIT، Google Research و دانشگاه استنفورد در حال تلاش برای کشف این راز هستند. آنها مدل هایی را مطالعه کردند که بسیار شبیه به مدل های زبان بزرگ هستند تا ببینند چگونه می توانند بدون به روز رسانی پارامترها یاد بگیرند.
با تکیه بر این کار نظری، محققان ممکن است بتوانند یک ترانسفورماتور را قادر به انجام یادگیری درون متنی با افزودن تنها دو لایه به شبکه عصبی کنند. Akyürek هشدار می دهد که هنوز جزئیات فنی زیادی وجود دارد که باید قبل از این که امکان پذیر شود کار شود، اما می تواند به مهندسان کمک کند مدل هایی ایجاد کنند که می توانند کارهای جدید را بدون نیاز به آموزش مجدد با داده های جدید تکمیل کنند.
“معمولاً، اگر میخواهید این مدلها را دقیق تنظیم کنید، باید دادههای مربوط به دامنه را جمعآوری کنید و مهندسی پیچیدهای انجام دهید. اما اکنون میتوانیم فقط یک ورودی، پنج نمونه را به آن اضافه کنیم، و آن چیزی که میخواهیم را انجام میدهد. بنابراین، در آکیورک میگوید یادگیری زمینهای یک پدیده بسیار هیجانانگیز است.
محققان این فرضیه را با استفاده از آزمایشهای کاوشگر مورد بررسی قرار دادند، جایی که آنها در لایههای پنهان ترانسفورماتور جستجو کردند تا مقدار مشخصی را بازیابی کنند.
اکین آکیورک، دانشجوی فارغ التحصیل علوم کامپیوتر و نویسنده ارشد مقاله ای که به بررسی این پدیده می پردازد، می گوید که این تحقیق گام مهمی به سوی درک مکانیسم های پشت یادگیری درون زمینه ای است، این تحقیق راه را برای کاوش بیشتر در مورد الگوریتم های یادگیری که این مدل های بزرگ می توانند پیاده سازی کنند، باز می کند. با درک بهتر یادگیری درون زمینه ای، محققان می توانند مدل ها را قادر سازند تا وظایف جدید را بدون نیاز به بازآموزی پرهزینه انجام دهند.
نتایج نظری محققان نشان میدهد که این مدلهای شبکه عصبی عظیم میتوانند مدلهای خطی کوچکتر و سادهتری را در درون خود داشته باشند. سپس مدل بزرگ می تواند یک الگوریتم یادگیری ساده را برای آموزش این مدل کوچکتر خطی برای تکمیل یک کار جدید، با استفاده از تنها اطلاعات موجود در مدل بزرگتر، پیاده سازی کند. پارامترهای آن ثابت می ماند.
برای آزمایش این فرضیه، محققان از یک مدل شبکه عصبی به نام ترانسفورماتور استفاده کردند که معماری مشابهی با GPT-3 دارد، اما به طور خاص برای یادگیری درون متنی آموزش دیده بود.
Dale Schuurmans، دانشمند محقق در Google Brain و استاد علوم محاسباتی در دانشگاه آلبرتا، به Akyürek در این مقاله میپیوندند. و همچنین نویسندگان ارشد Jacob Andreas، استادیار کنسرسیوم X در بخش مهندسی برق و علوم کامپیوتر MIT و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL). Tengyu Ma، استادیار علوم کامپیوتر و آمار در استنفورد؛ و دنی ژو، دانشمند اصلی و مدیر تحقیقات در Google Brain. این تحقیق در کنفرانس بینالمللی نمایشهای یادگیری ارائه خواهد شد.
آکیورک میگوید: در جامعه تحقیقاتی یادگیری ماشینی، بسیاری از دانشمندان به این باور رسیدهاند که مدلهای زبان بزرگ میتوانند به دلیل نحوه آموزش آنها، یادگیری درون متنی را انجام دهند.
با کاوش در معماری این ترانسفورماتور، آنها از نظر تئوری ثابت کردند که می تواند یک مدل خطی در حالت های پنهان خود بنویسد. یک شبکه عصبی از لایه های زیادی از گره های به هم پیوسته تشکیل شده است که داده ها را پردازش می کنند. حالت های پنهان لایه های بین لایه های ورودی و خروجی هستند.
به عنوان مثال، GPT-3 صدها میلیارد پارامتر دارد و با خواندن بخش های عظیمی از متن در اینترنت، از مقالات ویکی پدیا گرفته تا پست های ردیت، آموزش داده شده است. بنابراین، وقتی کسی نمونههای مدل یک کار جدید را نشان میدهد، احتمالاً قبلاً چیزی بسیار مشابه دیده است زیرا مجموعه داده آموزشی آن شامل متنی از میلیاردها وبسایت است. به جای یادگیری انجام کارهای جدید، الگوهایی را که در طول آموزش دیده است، تکرار می کند.
ارزیابی های ریاضی آنها نشان می دهد که این مدل خطی در جایی در لایه های اولیه ترانسفورماتور نوشته شده است. سپس ترانسفورماتور می تواند مدل خطی را با اجرای الگوریتم های یادگیری ساده به روز کند.
در اصل، مدل یک نسخه کوچکتر از خود را شبیه سازی و آموزش می دهد.
او میگوید: “در این مورد، ما سعی کردیم راهحل واقعی مدل خطی را بازیابی کنیم و میتوانیم نشان دهیم که پارامتر در حالتهای پنهان نوشته شده است. این بدان معناست که مدل خطی در جایی وجود دارد.”
کاوش لایه های پنهان
مدلهای زبان بزرگ مانند GPT-3 OpenAI، شبکههای عصبی عظیمی هستند که میتوانند متنی شبیه انسان، از شعر گرفته تا کد برنامهنویسی تولید کنند. این مدلهای یادگیری ماشینی که با استفاده از دادههای اینترنتی آموزش دیدهاند، مقدار کمی از متن ورودی را میگیرند و سپس متنی را که احتمالاً در آینده خواهد آمد، پیشبینی میکنند.
آکیورک این فرضیه را مطرح کرد که یادگیرندگان درون زمینه فقط با الگوهای دیده شده قبلی مطابقت ندارند، بلکه در واقع در حال یادگیری انجام وظایف جدید هستند. او و دیگران با دادن اعلانهایی به این مدلها با استفاده از دادههای مصنوعی، که قبلاً نمیتوانستند آنها را ببینند، آزمایش کرده بودند و دریافتند که مدلها هنوز هم میتوانند از چند نمونه یاد بگیرند. آکیورک و همکارانش فکر کردند که شاید این مدلهای شبکه عصبی دارای مدلهای کوچکتری برای یادگیری ماشین باشند که مدلها میتوانند برای تکمیل یک کار جدید آموزش دهند.
یک مدل در یک مدل
به طور معمول، یک مدل یادگیری ماشینی مانند GPT-3 باید با داده های جدید برای این کار جدید بازآموزی شود. در طول این فرآیند آموزشی، مدل پارامترهای خود را بهروزرسانی میکند، زیرا اطلاعات جدید را برای یادگیری کار پردازش میکند. اما با یادگیری درون متنی، پارامترهای مدل بهروزرسانی نمیشوند، بنابراین به نظر میرسد که مدل بدون یادگیری چیزی، یک کار جدید را یاد میگیرد.
او میگوید: «این میتواند تقریباً همه پدیدههای یادگیری را که با این مدلهای بزرگ دیدهایم توضیح دهد.
اما این همه کاری نیست که این مدل ها می توانند انجام دهند. محققان در حال بررسی یک پدیده عجیب به نام یادگیری درون متنی هستند، که در آن یک مدل زبان بزرگ می آموزد که یک کار را تنها پس از دیدن چند نمونه انجام دهد – علیرغم این واقعیت که برای آن کار آموزش ندیده است. به عنوان مثال، کسی می تواند چندین جمله مثال و احساسات آنها (مثبت یا منفی) را به مدل بدهد، سپس آن را با یک جمله جدید ترغیب کند، و مدل می تواند احساس صحیح را ارائه دهد.
Matthew Newman
Matthew Newman
Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasetsView all posts by Matthew Newman →