آموزش یک مدل یادگیری ماشینی برای انجام موثر یک کار، مانند طبقه بندی تصاویر، شامل نشان دادن هزاران، میلیون ها یا حتی میلیاردها تصویر نمونه به مدل است. جمع آوری چنین مجموعه داده های عظیمی می تواند به ویژه زمانی که حفظ حریم خصوصی یک نگرانی است، مانند تصاویر پزشکی، چالش برانگیز باشد. محققان MIT و استارت آپ DynamoFL که در MIT متولد شده است، اکنون یک راه حل محبوب برای این مشکل به نام یادگیری فدرال گرفته اند و آن را سریعتر و دقیق تر کرده اند.
یادگیری فدرال روشی مشترک برای آموزش یک مدل یادگیری ماشینی است که داده های حساس کاربر را خصوصی نگه می دارد. صدها یا هزاران کاربر هر کدام مدل خود را با استفاده از داده های خود در دستگاه خود آموزش می دهند. سپس کاربران مدلهای خود را به یک سرور مرکزی انتقال میدهند، که آنها را با هم ترکیب میکند تا مدل بهتری ارائه کند که برای همه کاربران ارسال میکند.
به عنوان مثال، مجموعهای از بیمارستانهای واقع در سراسر جهان میتوانند از این روش برای آموزش یک مدل یادگیری ماشینی استفاده کنند که تومورهای مغزی را در تصاویر پزشکی شناسایی میکند و در عین حال دادههای بیمار را در سرورهای محلی خود ایمن نگه میدارد.
اما یادگیری فدرال دارای اشکالاتی است. انتقال یک مدل بزرگ یادگیری ماشینی به و از یک سرور مرکزی مستلزم جابجایی داده های زیادی است که هزینه های ارتباطی بالایی دارد، به خصوص اینکه مدل باید ده ها یا حتی صدها بار به عقب و جلو فرستاده شود. به علاوه، هر کاربر دادههای خود را جمعآوری میکند، بنابراین این دادهها لزوماً از الگوهای آماری یکسانی پیروی نمیکنند، که عملکرد مدل ترکیبی را مختل میکند. و این مدل ترکیبی با گرفتن میانگین ساخته شده است — برای هر کاربر شخصی سازی نشده است.
محققان تکنیکی را توسعه دادند که می تواند به طور همزمان این سه مشکل یادگیری فدرال را برطرف کند. روش آنها دقت مدل یادگیری ماشین ترکیبی را افزایش می دهد و در عین حال اندازه آن را به میزان قابل توجهی کاهش می دهد، که باعث افزایش سرعت ارتباط بین کاربران و سرور مرکزی می شود. همچنین تضمین میکند که هر کاربر مدلی را دریافت میکند که برای محیطش شخصیسازی شدهتر است، که عملکرد را بهبود میبخشد.
محققان توانستند اندازه مدل را در مقایسه با سایر تکنیکها تقریباً یک مرتبه کاهش دهند که منجر به هزینههای ارتباطی بین چهار تا شش برابر برای کاربران فردی شد. تکنیک آنها همچنین توانست دقت کلی مدل را حدود 10 درصد افزایش دهد.
“مقالات زیادی به یکی از مشکلات یادگیری فدرال پرداختهاند، اما چالش این بود که همه اینها را کنار هم بگذاریم. الگوریتمهایی که فقط بر شخصیسازی یا کارایی ارتباط تمرکز میکنند راهحل کافی خوب ارائه نمیکنند. ما میخواستیم مطمئن باشیم که Vaikkunth Mugunthan PhD ’22، نویسنده اصلی مقالهای که این تکنیک را معرفی میکند، میگوید: قادر به بهینهسازی برای همه چیز بودند، بنابراین میتوان از این تکنیک در دنیای واقعی استفاده کرد.
موگونتان این مقاله را به همراه مشاورش، نویسنده ارشد لالانا کاگال، دانشمند پژوهشی اصلی در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) نوشت. این کار در کنفرانس اروپایی بینایی کامپیوتر ارائه خواهد شد.
برش مدل به اندازه
سیستمی که محققان توسعه دادند، به نام FedLTN، بر ایده ای در یادگیری ماشینی که به عنوان فرضیه بلیط بخت آزمایی معروف است، متکی است. این فرضیه میگوید که در مدلهای شبکه عصبی بسیار بزرگ، زیرشبکههای بسیار کوچکتری وجود دارند که میتوانند عملکرد یکسانی داشته باشند. پیدا کردن یکی از این زیرشبکه ها شبیه به پیدا کردن یک بلیط بخت آزمایی برنده است. (LTN مخفف “شبکه بلیط بخت آزمایی” است.)
شبکههای عصبی که بر اساس مغز انسان هستند، مدلهای یادگیری ماشینی هستند که حل مسائل را با استفاده از لایههای به هم پیوسته گرهها یا نورونها یاد میگیرند.
پیدا کردن یک شبکه بلیط بخت آزمایی برنده پیچیده تر از یک اسکرچ کردن ساده است. محققان باید از فرآیندی به نام هرس تکراری استفاده کنند. اگر دقت مدل بالاتر از یک آستانه تعیین شده باشد، گرهها و اتصالات بین آنها را حذف میکنند (درست مانند هرس کردن شاخههای یک بوته) و سپس شبکه عصبی نابتر را آزمایش میکنند تا ببینند آیا دقت بالاتر از آستانه باقی میماند یا خیر.
روشهای دیگر از این تکنیک هرس برای یادگیری فدرال برای ایجاد مدلهای کوچکتر یادگیری ماشینی استفاده کردهاند که میتوانند کارآمدتر منتقل شوند. اما در حالی که این روش ها ممکن است کارها را سرعت بخشند، عملکرد مدل آسیب می بیند.
Mugunthan و Kagal از چند تکنیک جدید برای تسریع فرآیند هرس استفاده کردند و در عین حال مدلهای جدید و کوچکتر را برای هر کاربر دقیقتر و شخصیتر کردند.
آنها هرس را با اجتناب از مرحله ای که در آن قسمت های باقی مانده از شبکه عصبی هرس شده به مقادیر اولیه خود “بازگردانده شده” می شوند، تسریع کردند. موگونتان توضیح میدهد که آنها همچنین این مدل را قبل از هرس کردن آن آموزش دادند، که باعث میشود دقیقتر شود تا بتوان آن را با سرعت بیشتری هرس کرد.
برای شخصیسازی هر مدل برای محیط کاربر، آنها مراقب بودند که لایههایی را در شبکه که اطلاعات آماری مهمی در مورد دادههای خاص آن کاربر میگیرند، حذف نکنند. علاوه بر این، زمانی که همه مدل ها با هم ترکیب شدند، از اطلاعات ذخیره شده در سرور مرکزی استفاده کردند تا برای هر دور ارتباط از ابتدا شروع نشود.
آنها همچنین تکنیکی را برای کاهش تعداد دورهای ارتباطی برای کاربران با دستگاه های محدود به منابع، مانند تلفن هوشمند در یک شبکه کند، توسعه دادند. این کاربران فرآیند یادگیری فدرال را با مدلی نابتر شروع می کنند که قبلاً توسط زیرمجموعه ای از کاربران دیگر بهینه شده است.
برنده شدن بزرگ با شبکه های بلیط قرعه کشی
هنگامی که آنها FedLTN را در شبیه سازی مورد آزمایش قرار دادند، منجر به عملکرد بهتر و کاهش هزینه های ارتباطی سراسری شد. در یک آزمایش، یک رویکرد سنتی یادگیری فدرال مدلی با اندازه 45 مگابایت تولید کرد، در حالی که تکنیک آنها مدلی با همان دقت تولید کرد که تنها 5 مگابایت بود. در آزمایش دیگری، یک تکنیک پیشرفته به ۱۲۰۰۰ مگابایت ارتباط بین کاربران و سرور برای آموزش یک مدل نیاز داشت، در حالی که FedLTN فقط به ۴۵۰۰ مگابایت نیاز داشت.
با FedLTN، مشتریان با بدترین عملکرد همچنان شاهد افزایش عملکرد بیش از 10 درصد بودند. Mugunthan اضافه می کند که دقت کلی مدل تقریباً 10 درصد از پیشرفته ترین الگوریتم شخصی سازی پیشی گرفته است.
اکنون که آنها FedLTN را توسعه داده و تنظیم کردهاند، Mugunthan در تلاش است تا این تکنیک را در یک استارتآپ یادگیری فدرال که اخیراً تأسیس کرده است، DynamoFL، ادغام کند.
با حرکت رو به جلو، او امیدوار است که به تقویت این روش ادامه دهد. به عنوان مثال، محققان با استفاده از مجموعه دادههایی که دارای برچسب بودند، موفقیت خود را نشان دادهاند، اما او میگوید که چالش بزرگتر استفاده از تکنیکهای مشابه برای دادههای بدون برچسب است.
Mugunthan امیدوار است که این کار الهام بخش دیگر محققان باشد تا درباره نحوه رویکرد یادگیری فدرال تجدید نظر کنند.
“این کار اهمیت تفکر در مورد این مشکلات را از جنبه ای کل نگر نشان می دهد، و نه فقط معیارهای فردی که باید بهبود یابند. گاهی اوقات، بهبود یک معیار می تواند در واقع باعث کاهش رتبه در معیارهای دیگر شود. در عوض، ما باید بر چگونگی تمرکز کنیم. ما میتوانیم مجموعهای از چیزها را با هم بهبود دهیم، که اگر بخواهیم در دنیای واقعی مستقر شوند، بسیار مهم است.”