یک مطالعه جدید نشان می دهد که چگونه مدل های زبان بزرگ مانند GPT-3 می توانند یک کار جدید را تنها از چند مثال، بدون نیاز به داده های آموزشی جدید یاد بگیرند – ScienceDaily

با حرکت رو به جلو، آکیورک قصد دارد به کاوش در یادگیری درون متنی با توابع پیچیده‌تر از مدل‌های خطی که در این کار مطالعه کرده‌اند، ادامه دهد. آنها همچنین می‌توانند این آزمایش‌ها را روی مدل‌های زبانی بزرگ اعمال کنند تا ببینند آیا رفتارهای آنها نیز با الگوریتم‌های یادگیری ساده توصیف می‌شود یا خیر. علاوه بر این، او می‌خواهد در انواع داده‌های پیش‌آموزشی که می‌توانند یادگیری درون زمینه‌ای را فعال کنند، عمیق‌تر کند.

آکیورک می‌گوید: “با این کار، مردم اکنون می‌توانند تجسم کنند که چگونه این مدل‌ها می‌توانند از نمونه‌ها بیاموزند. بنابراین، امید من این است که دیدگاه برخی افراد را در مورد یادگیری درون زمینه‌ای تغییر دهد.” “این مدل ها آنقدرها که مردم فکر می کنند احمق نیستند. آنها فقط این کارها را حفظ نمی کنند. آنها می توانند کارهای جدید را یاد بگیرند و ما نشان داده ایم که چگونه می توان این کار را انجام داد.”



منبع

دانشمندان MIT، Google Research و دانشگاه استنفورد در حال تلاش برای کشف این راز هستند. آنها مدل هایی را مطالعه کردند که بسیار شبیه به مدل های زبان بزرگ هستند تا ببینند چگونه می توانند بدون به روز رسانی پارامترها یاد بگیرند.

با تکیه بر این کار نظری، محققان ممکن است بتوانند یک ترانسفورماتور را قادر به انجام یادگیری درون متنی با افزودن تنها دو لایه به شبکه عصبی کنند. Akyürek هشدار می دهد که هنوز جزئیات فنی زیادی وجود دارد که باید قبل از این که امکان پذیر شود کار شود، اما می تواند به مهندسان کمک کند مدل هایی ایجاد کنند که می توانند کارهای جدید را بدون نیاز به آموزش مجدد با داده های جدید تکمیل کنند.

“معمولاً، اگر می‌خواهید این مدل‌ها را دقیق تنظیم کنید، باید داده‌های مربوط به دامنه را جمع‌آوری کنید و مهندسی پیچیده‌ای انجام دهید. اما اکنون می‌توانیم فقط یک ورودی، پنج نمونه را به آن اضافه کنیم، و آن چیزی که می‌خواهیم را انجام می‌دهد. بنابراین، در آکیورک می‌گوید یادگیری زمینه‌ای یک پدیده بسیار هیجان‌انگیز است.

محققان این فرضیه را با استفاده از آزمایش‌های کاوشگر مورد بررسی قرار دادند، جایی که آنها در لایه‌های پنهان ترانسفورماتور جستجو کردند تا مقدار مشخصی را بازیابی کنند.

اکین آکیورک، دانشجوی فارغ التحصیل علوم کامپیوتر و نویسنده ارشد مقاله ای که به بررسی این پدیده می پردازد، می گوید که این تحقیق گام مهمی به سوی درک مکانیسم های پشت یادگیری درون زمینه ای است، این تحقیق راه را برای کاوش بیشتر در مورد الگوریتم های یادگیری که این مدل های بزرگ می توانند پیاده سازی کنند، باز می کند. با درک بهتر یادگیری درون زمینه ای، محققان می توانند مدل ها را قادر سازند تا وظایف جدید را بدون نیاز به بازآموزی پرهزینه انجام دهند.

نتایج نظری محققان نشان می‌دهد که این مدل‌های شبکه عصبی عظیم می‌توانند مدل‌های خطی کوچک‌تر و ساده‌تری را در درون خود داشته باشند. سپس مدل بزرگ می تواند یک الگوریتم یادگیری ساده را برای آموزش این مدل کوچکتر خطی برای تکمیل یک کار جدید، با استفاده از تنها اطلاعات موجود در مدل بزرگتر، پیاده سازی کند. پارامترهای آن ثابت می ماند.

برای آزمایش این فرضیه، محققان از یک مدل شبکه عصبی به نام ترانسفورماتور استفاده کردند که معماری مشابهی با GPT-3 دارد، اما به طور خاص برای یادگیری درون متنی آموزش دیده بود.

Dale Schuurmans، دانشمند محقق در Google Brain و استاد علوم محاسباتی در دانشگاه آلبرتا، به Akyürek در این مقاله می‌پیوندند. و همچنین نویسندگان ارشد Jacob Andreas، استادیار کنسرسیوم X در بخش مهندسی برق و علوم کامپیوتر MIT و عضو آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL). Tengyu Ma، استادیار علوم کامپیوتر و آمار در استنفورد؛ و دنی ژو، دانشمند اصلی و مدیر تحقیقات در Google Brain. این تحقیق در کنفرانس بین‌المللی نمایش‌های یادگیری ارائه خواهد شد.

آکیورک می‌گوید: در جامعه تحقیقاتی یادگیری ماشینی، بسیاری از دانشمندان به این باور رسیده‌اند که مدل‌های زبان بزرگ می‌توانند به دلیل نحوه آموزش آنها، یادگیری درون متنی را انجام دهند.

با کاوش در معماری این ترانسفورماتور، آنها از نظر تئوری ثابت کردند که می تواند یک مدل خطی در حالت های پنهان خود بنویسد. یک شبکه عصبی از لایه های زیادی از گره های به هم پیوسته تشکیل شده است که داده ها را پردازش می کنند. حالت های پنهان لایه های بین لایه های ورودی و خروجی هستند.

به عنوان مثال، GPT-3 صدها میلیارد پارامتر دارد و با خواندن بخش های عظیمی از متن در اینترنت، از مقالات ویکی پدیا گرفته تا پست های ردیت، آموزش داده شده است. بنابراین، وقتی کسی نمونه‌های مدل یک کار جدید را نشان می‌دهد، احتمالاً قبلاً چیزی بسیار مشابه دیده است زیرا مجموعه داده آموزشی آن شامل متنی از میلیاردها وب‌سایت است. به جای یادگیری انجام کارهای جدید، الگوهایی را که در طول آموزش دیده است، تکرار می کند.

ارزیابی های ریاضی آنها نشان می دهد که این مدل خطی در جایی در لایه های اولیه ترانسفورماتور نوشته شده است. سپس ترانسفورماتور می تواند مدل خطی را با اجرای الگوریتم های یادگیری ساده به روز کند.

در اصل، مدل یک نسخه کوچکتر از خود را شبیه سازی و آموزش می دهد.

او می‌گوید: “در این مورد، ما سعی کردیم راه‌حل واقعی مدل خطی را بازیابی کنیم و می‌توانیم نشان دهیم که پارامتر در حالت‌های پنهان نوشته شده است. این بدان معناست که مدل خطی در جایی وجود دارد.”

کاوش لایه های پنهان

مدل‌های زبان بزرگ مانند GPT-3 OpenAI، شبکه‌های عصبی عظیمی هستند که می‌توانند متنی شبیه انسان، از شعر گرفته تا کد برنامه‌نویسی تولید کنند. این مدل‌های یادگیری ماشینی که با استفاده از داده‌های اینترنتی آموزش دیده‌اند، مقدار کمی از متن ورودی را می‌گیرند و سپس متنی را که احتمالاً در آینده خواهد آمد، پیش‌بینی می‌کنند.

آکیورک این فرضیه را مطرح کرد که یادگیرندگان درون زمینه فقط با الگوهای دیده شده قبلی مطابقت ندارند، بلکه در واقع در حال یادگیری انجام وظایف جدید هستند. او و دیگران با دادن اعلان‌هایی به این مدل‌ها با استفاده از داده‌های مصنوعی، که قبلاً نمی‌توانستند آن‌ها را ببینند، آزمایش کرده بودند و دریافتند که مدل‌ها هنوز هم می‌توانند از چند نمونه یاد بگیرند. آکیورک و همکارانش فکر کردند که شاید این مدل‌های شبکه عصبی دارای مدل‌های کوچک‌تری برای یادگیری ماشین باشند که مدل‌ها می‌توانند برای تکمیل یک کار جدید آموزش دهند.

یک مدل در یک مدل

به طور معمول، یک مدل یادگیری ماشینی مانند GPT-3 باید با داده های جدید برای این کار جدید بازآموزی شود. در طول این فرآیند آموزشی، مدل پارامترهای خود را به‌روزرسانی می‌کند، زیرا اطلاعات جدید را برای یادگیری کار پردازش می‌کند. اما با یادگیری درون متنی، پارامترهای مدل به‌روزرسانی نمی‌شوند، بنابراین به نظر می‌رسد که مدل بدون یادگیری چیزی، یک کار جدید را یاد می‌گیرد.

او می‌گوید: «این می‌تواند تقریباً همه پدیده‌های یادگیری را که با این مدل‌های بزرگ دیده‌ایم توضیح دهد.

اما این همه کاری نیست که این مدل ها می توانند انجام دهند. محققان در حال بررسی یک پدیده عجیب به نام یادگیری درون متنی هستند، که در آن یک مدل زبان بزرگ می آموزد که یک کار را تنها پس از دیدن چند نمونه انجام دهد – علیرغم این واقعیت که برای آن کار آموزش ندیده است. به عنوان مثال، کسی می تواند چندین جمله مثال و احساسات آنها (مثبت یا منفی) را به مدل بدهد، سپس آن را با یک جمله جدید ترغیب کند، و مدل می تواند احساس صحیح را ارائه دهد.

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]