
بروزرسانی: 25 خرداد 1404
اکنون، هر زیست شناس می تواند از یادگیری ماشینی استفاده کند -- ScienceDaily
نویسندگان دیگر مقاله عبارتند از جورج کای از موسسه Wyss و دانشکده پزشکی هاروارد. اعضای سابق موسسه Wyss پرادیپ رامش، رانی پاورز، نیکولاس آنجنت ماری، و دیوگو کاماچو. و فلیکس وانگ و تیموتی لو از MIT.
مانند بسیاری از ایده های عالی، بذری که به BioAutoMATED تبدیل می شود، نه در آزمایشگاه، بلکه در وعده ناهار کاشته شد. والری و اولین نویسندگان لوئیس سوئنکسن، Ph.D. و کیتی کالینز در یکی از میزهای ناهار خوری موسسه Wyss با هم غذا می خوردند که متوجه شدند علیرغم شهرت موسسه به عنوان مقصدی در سطح جهانی برای تحقیقات بیولوژیکی، تنها تعداد انگشت شماری از متخصصان برجسته که در آنجا کار می کردند قادر به ساخت و آموزش مدل های ML هستند. می تواند سود زیادی برای کار آنها داشته باشد.
نوکلئوتیدها و پپتیدها و گلیکان ها، اوه من!
گروهی از دانشمندان مؤسسه مهندسی بیولوژیکی Wyss در دانشگاه هاروارد و MIT اکنون این نیاز برآورده نشده را با ساختن یک پلت فرم جدید و جامع AutoML که برای زیست شناسانی با تجربه اندک یا بدون تجربه ML طراحی شده است، پر کرده اند. پلتفرم آنها که BioAutoMATED نام دارد، می تواند از توالی اسیدهای نوکلئیک، پپتیدها یا گلیکان ها به عنوان داده ورودی استفاده کند و عملکرد آن با سایر پلتفرم های AutoML قابل مقایسه است در حالی که به حداقل ورودی کاربر نیاز دارد. این پلتفرم در مقاله جدیدی که در سال منتشر شده است توضیح داده شده است سیستم های سلولی و برای دانلود از GitHub در دسترس است.
"ابزار ما برای افرادی است که توانایی ساخت مدل های ML سفارشی خود را ندارند، که خود را در حال پرسیدن سؤالاتی از این قبیل می دانند، "من این مجموعه داده جالب را دارم، آیا ML حتی برای آن کار می کند؟ جکی والری، یکی از نویسندگان، یک دانشجوی فارغ التحصیل در آزمایشگاه جیم کالینز، عضو هیئت علمی Wyss Core، گفت: «مدل ML پیچیدگی ML چیزی است که من را از ادامه دادن به این مجموعه داده باز می دارد، پس چگونه می توانم بر آن غلبه کنم؟» , Ph.D. ما می خواستیم استفاده از قدرت ML و AutoML را برای زیست شناسان و متخصصان حوزه های دیگر آسان کنیم تا به سؤالات اساسی پاسخ دهند و به کشف زیست شناسی کمک کنند.»
تیم برای آزمایش چارچوب جدید خود، ابتدا از آن استفاده کرد تا بررسی کند که چگونه تغییر توالی یک RNA به نام محل اتصال ریبوزوم (RBS) بر کارایی که با آن یک ریبوزوم می تواند به RNA متصل شود و آن را به پروتئین ترجمه کند، تحت تأثیر قرار داد. E. coli باکتری ها آنها داده های توالی خود را به BioAutoMATED دادند، که مدلی را شناسایی کرد که توسط الگوریتم DeepSwarm تولید شده بود که می توانست کارایی ترجمه را به دقت پیش بینی کند. این مدل به خوبی مدل های ایجاد شده توسط یک متخصص حرفه ای ML عمل کرد، اما تنها در 26.5 دقیقه تولید شد و تنها به ده خط کد ورودی از کاربر نیاز داشت (مدل های دیگر می توانند به بیش از 750 نیاز داشته باشند). آنها همچنین از BioAutoMATED برای شناسایی مناطقی از دنباله استفاده کردند که به نظر می رسد در تعیین کارایی ترجمه مهم ترین هستند و دنباله های جدیدی طراحی کردند که می توان آنها را آزمایش کرد.
در حالی که سیستم های AutoML مختلف قبلاً برای ساده سازی فرآیند تولید مدل های ML از مجموعه داده ها توسعه یافته اند، معمولاً دارای اشکالاتی هستند. در میان آنها، این واقعیت است که هر ابزار AutoML طراحی شده است تا تنها به یک نوع مدل (به عنوان مثال، شبکه های عصبی) در هنگام جستجو برای یک راه حل بهینه نگاه کند. این مدل به دست آمده را به مجموعه محدودی از احتمالات محدود می کند، در حالی که در واقعیت، نوع متفاوتی از مدل در مجموع ممکن است بهینه تر باشد. مسئله دیگر این است که اکثر ابزارهای AutoML به طور خاص برای گرفتن توالی های بیولوژیکی به عنوان داده های ورودی خود طراحی نشده اند. برخی از ابزارها توسعه داده شده اند که از مدل های زبانی برای تجزیه و تحلیل توالی های بیولوژیکی استفاده می کنند، اما این ابزارها فاقد ویژگی های اتوماسیون هستند و استفاده از آنها دشوار است.
برای ساختن یک AutoML یکپارچه قوی برای زیست شناسی، این تیم سه ابزار AutoML موجود را اصلاح کردند که هر کدام از رویکردهای متفاوتی برای تولید مدل ها استفاده می کنند: AutoKeras که شبکه های عصبی بهینه را جستجو می کند. DeepSwarm که از الگوریتم های مبتنی بر ازدحام برای جستجوی شبکه های عصبی کانولوشنال استفاده می کند. و TPOT که شبکه های غیر عصبی را با استفاده از روش های مختلف از جمله برنامه ریزی ژنتیکی و خودآموزی جستجو می کند. سپس BioAutoMATED نتایج خروجی استاندارد شده ای را برای هر سه ابزار تولید می کند، به طوری که کاربر می تواند به راحتی آنها را مقایسه کند و تعیین کند که کدام نوع از داده های آنها مفیدترین بینش را ایجاد می کند.
"در نهایت، ما توانستیم نشان دهیم که BioAutoMATED به افراد کمک می کند 1) الگوهای موجود در داده های بیولوژیکی را تشخیص دهند، 2) سوالات بهتری در مورد آن داده ها بپرسند، و 3) به آن سوالات سریع پاسخ دهند، همه در یک چارچوب واحد -- بدون نیاز به تبدیل شدن به یک ML کتی کالینز، که در حال حاضر دانشجوی کارشناسی ارشد در دانشگاه کمبریج است و زمانی که در مقطع کارشناسی در MIT بود، روی این پروژه کار می کرد، گفت.
فعال کردن افراد غیرمتخصص برای استفاده از این پلتفرم ها برای استفاده از پتانسیل کامل تکنیک های ML برای حل مشکلات طولانی مدت در زیست شناسی و فراتر از آن بسیار مهم است. این پیشرفت توسط تیم کالینز گام بزرگی برای تبدیل هوش مصنوعی به یک همکار کلیدی است. برای زیست شناسان و مهندسان زیستی، گفت: دان اینگبر، مدیر موسس Wyss، MD، Ph.D. جودا فولکمن استاد زیست شناسی عروقی در دانشکده پزشکی هاروارد و بیمارستان کودکان بوستون، و Hansjörg Wyss استاد مهندسی با الهام از زیست در دانشکده مهندسی و علوم کاربردی هاروارد جان A. Paulson (SEAS).
جیم کالینز، که همچنین در این زمینه فعالیت می کند، می گوید: «آموزش ماشین و ابزارهای هوش مصنوعی مدتی است که وجود داشته اند، اما تنها با توسعه اخیر رابط های کاربرپسند است که محبوبیت زیادی پیدا کرده اند، مانند مورد ChatGPT. پروفسور ترمیر مهندسی پزشکی و علوم در MIT. "ما امیدواریم که BioAutoMATED بتواند نسل بعدی زیست شناسان را قادر سازد تا سریعتر و آسانتر زیربنای زندگی را کشف کنند."
حجم داده های تولید شده توسط دانشمندان امروزه به دلیل کاهش هزینه های تکنولوژی توالی یابی و افزایش مقدار توان محاسباتی موجود، بسیار زیاد است. اما تجزیه همه این داده ها برای کشف اطلاعات مفید مانند جستجوی یک سوزن مولکولی در انبار کاه است. یادگیری ماشینی (ML) و سایر ابزارهای هوش مصنوعی (AI) می توانند به طور چشمگیری روند تجزیه و تحلیل داده ها را سرعت بخشند، اما دسترسی و استفاده از اکثر ابزارهای ML برای متخصصان غیر ML دشوار است. اخیراً، روش های یادگیری ماشین خودکار (AutoML) توسعه یافته اند که می توانند طراحی و استقرار ابزارهای ML را خودکار کنند، اما آنها اغلب بسیار پیچیده هستند و به امکاناتی با ML نیاز دارند که تعداد کمی از دانشمندان خارج از حوزه هوش مصنوعی آن را دارند.
سونکسن گفت: «ما تصمیم گرفتیم که باید کاری در این زمینه انجام دهیم، زیرا می خواستیم Wyss در خط مقدم انقلاب بیوتکنولوژی هوش مصنوعی باشد، و همچنین می خواستیم توسعه این ابزار توسط زیست شناسان، برای زیست شناسان انجام شود». عضو فوق دکترا در موسسه Wyss که همچنین یک کارآفرین سریالی در فضای علم و فناوری است. "اکنون، همه قبول دارند که هوش مصنوعی آینده است، اما چهار سال پیش، زمانی که این ایده را به دست آوردیم، به ویژه برای تحقیقات بیولوژیکی چندان واضح نبود. بنابراین، این کار به عنوان ابزاری شروع شد که می خواستیم برای خدمت به خودمان و خودمان بسازیم. همکاران Wyss، اما اکنون می دانیم که می تواند بسیار بیشتر خدمت کند."
این تیم BioAutoMATED را ساخت تا بتواند به عنوان ورودی DNA، RNA، اسید آمینه و گلیکان (مولکول های قند موجود در سطوح سلول ها) توالی هایی با هر طول، نوع یا عملکرد بیولوژیکی دریافت کند. BioAutoMATED به طور خودکار داده های ورودی را از قبل پردازش می کند، سپس مدل هایی تولید می کند که می توانند عملکردهای بیولوژیکی را تنها از طریق اطلاعات توالی پیش بینی کنند.
این پلتفرم همچنین دارای تعدادی ویژگی است که به کاربران کمک می کند تعیین کنند که آیا نیاز به جمع آوری داده های اضافی برای بهبود کیفیت خروجی دارند یا خیر، بیاموزند که مدل ها به کدام ویژگی های دنباله ای بیشتر توجه کرده اند (و در نتیجه ممکن است علاقه بیولوژیکی بیشتری داشته باشند. ) و توالی های جدیدی را برای آزمایش های آینده طراحی کنید.
هر مدلی که با کمک BioAutoMATED پیش بینی می شود، مانند هر ابزار ML دیگری، باید تا حد امکان در آزمایشگاه تأیید اعتبار شود. اما این تیم امیدوار است که بتواند بیشتر در مجموعه ابزارهای AutoML در حال رشد ادغام شود و روزی عملکرد خود را فراتر از توالی های بیولوژیکی به هر جسم توالی مانندی مانند اثر انگشت گسترش دهد.
این تحقیق توسط آژانس کاهش تهدیدات دفاعی (اهداف HDTRA-12210032)، برنامه DARPA SD2، گروه مرزی پل جی آلن، موسسه مهندسی بیولوژیکی Wyss، کمک هزینه تحصیلی MIT-Takeda، کمک هزینه CONACyT 342369/40897 پشتیبانی شد. و فلوشیپ مرکز MIT-TATA (2748460).
منبع
سپس آنها به آزمایشات تغذیه داده های توالی پپتید و گلیکان به BioAutoMATED و استفاده از نتایج برای پاسخ به سؤالات خاص در مورد آن توالی ها رفتند. این سیستم اطلاعات بسیار دقیقی در مورد اینکه کدام اسیدهای آمینه در یک توالی پپتیدی در تعیین توانایی آنتی بادی برای اتصال به داروی ranibizumab (Lucentis) مهم تر هستند تولید کرد و همچنین انواع مختلف گلیکان ها را بر اساس توالی هایشان به گروه های ایمونوژن و غیرایمونوژن طبقه بندی کرد. . این تیم همچنین از آن برای بهینه سازی توالی سوئیچ های پایه RNA استفاده کرد و از طراحی سوئیچ های نگهدارنده انگشتی جدید برای آزمایش تجربی با حداقل کدگذاری ورودی از کاربر خبر داد.
AutoML برای همه