کلان داده ها به چالش بزرگی برای دانشمندان فضایی تبدیل شده است که مجموعه داده های وسیعی را از ابزار دقیق فضایی قدرتمندتر تجزیه و تحلیل می کنند. برای رسیدگی به این موضوع، یک تیم موسسه تحقیقاتی Southwest ابزار یادگیری ماشینی را برای برچسبگذاری کارآمد مجموعه دادههای پیچیده و بزرگ ایجاد کرده است تا به مدلهای یادگیری عمیق اجازه دهد تا رویدادهای خورشیدی بالقوه خطرناک را غربال کنند و شناسایی کنند. ابزار برچسبگذاری جدید میتواند برای مقابله با چالشهای دیگر مربوط به مجموعه دادههای گسترده اعمال یا تطبیق داده شود.
از آنجایی که بستههای ابزار فضایی دادههای پیچیدهتر را در حجمهای روزافزون جمعآوری میکنند، پردازش و تجزیه و تحلیل روندهای مربوطه برای دانشمندان چالشبرانگیزتر میشود. یادگیری ماشینی (ML) در حال تبدیل شدن به یک ابزار حیاتی برای پردازش مجموعه دادههای پیچیده بزرگ است، جایی که الگوریتمها از دادههای موجود برای تصمیمگیری یا پیشبینیهایی یاد میگیرند که میتوانند به طور همزمان اطلاعات بیشتری نسبت به انسانها فاکتور بگیرند. با این حال، برای بهرهگیری از تکنیکهای ML، انسانها باید ابتدا همه دادهها را برچسبگذاری کنند – اغلب یک تلاش بزرگ.
دکتر سابهاموی چاترجی، محقق فوق دکتری در SwRI متخصص در نجوم و ابزار دقیق خورشیدی و نویسنده اصلی مقاله در مورد این موارد، گفت: “برچسب گذاری داده ها با حاشیه نویسی معنی دار یک گام مهم در ML نظارت شده است. با این حال، برچسب گذاری مجموعه داده ها خسته کننده و زمان بر است.” یافته های منتشر شده در مجله Nature Astronomy. تحقیقات جدید نشان میدهد که چگونه شبکههای عصبی کانولوشنال (CNN) که بر روی ویدئوهای نجومی با برچسبگذاری خام آموزش داده شدهاند، میتوانند برای بهبود کیفیت و وسعت برچسبگذاری دادهها و کاهش نیاز به مداخله انسانی استفاده شوند.
تکنیک های یادگیری عمیق می توانند پردازش و تفسیر مقادیر زیادی از داده های پیچیده را با استخراج و یادگیری الگوهای پیچیده خودکار کنند. تیم SwRI از ویدئوهای میدان مغناطیسی خورشیدی برای شناسایی مناطقی که میدانهای مغناطیسی قوی و پیچیده روی سطح خورشید ظاهر میشوند، استفاده کردند، که پیشنمایش اصلی رویدادهای جوی فضا هستند.
دکتر Andrés Muñoz-Jaramillo، فیزیکدان خورشیدی SwRI با تخصص در یادگیری ماشین، میگوید: «ما CNNها را با استفاده از برچسبهای خام آموزش دادیم، و به صورت دستی فقط اختلافات خود را با دستگاه تأیید میکردیم. ما سپس الگوریتم را با دادههای اصلاحشده دوباره آموزش دادیم و این فرآیند را تا زمانی که همه با هم موافق بودیم تکرار کردیم. در حالی که برچسبگذاری ظهور شار معمولاً به صورت دستی انجام میشود، این تعامل تکراری بین الگوریتم انسان و ML تأیید دستی را تا 50 درصد کاهش میدهد.»
روشهای برچسبگذاری تکراری مانند یادگیری فعال میتوانند به میزان قابل توجهی در زمان صرفهجویی کنند و هزینه آمادهسازی ML دادههای بزرگ را کاهش دهند. علاوه بر این، با پنهان کردن تدریجی ویدیوها و جستجوی لحظه ای که الگوریتم ML طبقه بندی خود را تغییر می دهد، دانشمندان SwRI از الگوریتم آموزش دیده ML برای ارائه یک پایگاه داده غنی تر و مفیدتر استفاده کردند.
دکتر درک لمب از SwRI، یکی از نویسندگان متخصص در تکامل گفت: «ما یک رویکرد یادگیری عمیق و سرتاسر برای طبقهبندی ویدیوهای تکامل پچ مغناطیسی بدون ارائه صریح تصاویر بخشبندی شده، الگوریتمهای ردیابی یا سایر ویژگیهای دست ساز ایجاد کردیم. میدان های مغناطیسی روی سطح خورشید این پایگاه داده در توسعه روشهای جدید برای پیشبینی ظهور مناطق پیچیده مساعد برای رویدادهای آبوهوای فضایی حیاتی خواهد بود و به طور بالقوه زمان آمادهسازی برای آبوهوای فضایی را افزایش میدهد.»
منبع داستان:
مواد تهیه شده توسط پژوهشکده جنوب غرب. توجه: محتوا ممکن است برای سبک و طول ویرایش شود.