تکنیک برچسب‌گذاری تکراری را می‌توان به کار برد، که با سایر چالش‌های کلان داده – ScienceDaily سازگار است


کلان داده ها به چالش بزرگی برای دانشمندان فضایی تبدیل شده است که مجموعه داده های وسیعی را از ابزار دقیق فضایی قدرتمندتر تجزیه و تحلیل می کنند. برای رسیدگی به این موضوع، یک تیم موسسه تحقیقاتی Southwest ابزار یادگیری ماشینی را برای برچسب‌گذاری کارآمد مجموعه داده‌های پیچیده و بزرگ ایجاد کرده است تا به مدل‌های یادگیری عمیق اجازه دهد تا رویدادهای خورشیدی بالقوه خطرناک را غربال کنند و شناسایی کنند. ابزار برچسب‌گذاری جدید می‌تواند برای مقابله با چالش‌های دیگر مربوط به مجموعه داده‌های گسترده اعمال یا تطبیق داده شود.

از آنجایی که بسته‌های ابزار فضایی داده‌های پیچیده‌تر را در حجم‌های روزافزون جمع‌آوری می‌کنند، پردازش و تجزیه و تحلیل روندهای مربوطه برای دانشمندان چالش‌برانگیزتر می‌شود. یادگیری ماشینی (ML) در حال تبدیل شدن به یک ابزار حیاتی برای پردازش مجموعه داده‌های پیچیده بزرگ است، جایی که الگوریتم‌ها از داده‌های موجود برای تصمیم‌گیری یا پیش‌بینی‌هایی یاد می‌گیرند که می‌توانند به طور همزمان اطلاعات بیشتری نسبت به انسان‌ها فاکتور بگیرند. با این حال، برای بهره‌گیری از تکنیک‌های ML، انسان‌ها باید ابتدا همه داده‌ها را برچسب‌گذاری کنند – اغلب یک تلاش بزرگ.

دکتر سابهاموی چاترجی، محقق فوق دکتری در SwRI متخصص در نجوم و ابزار دقیق خورشیدی و نویسنده اصلی مقاله در مورد این موارد، گفت: “برچسب گذاری داده ها با حاشیه نویسی معنی دار یک گام مهم در ML نظارت شده است. با این حال، برچسب گذاری مجموعه داده ها خسته کننده و زمان بر است.” یافته های منتشر شده در مجله Nature Astronomy. تحقیقات جدید نشان می‌دهد که چگونه شبکه‌های عصبی کانولوشنال (CNN) که بر روی ویدئوهای نجومی با برچسب‌گذاری خام آموزش داده شده‌اند، می‌توانند برای بهبود کیفیت و وسعت برچسب‌گذاری داده‌ها و کاهش نیاز به مداخله انسانی استفاده شوند.

تکنیک های یادگیری عمیق می توانند پردازش و تفسیر مقادیر زیادی از داده های پیچیده را با استخراج و یادگیری الگوهای پیچیده خودکار کنند. تیم SwRI از ویدئوهای میدان مغناطیسی خورشیدی برای شناسایی مناطقی که میدان‌های مغناطیسی قوی و پیچیده روی سطح خورشید ظاهر می‌شوند، استفاده کردند، که پیش‌نمایش اصلی رویدادهای جوی فضا هستند.

دکتر Andrés Muñoz-Jaramillo، فیزیکدان خورشیدی SwRI با تخصص در یادگیری ماشین، می‌گوید: «ما CNN‌ها را با استفاده از برچسب‌های خام آموزش دادیم، و به صورت دستی فقط اختلافات خود را با دستگاه تأیید می‌کردیم. ما سپس الگوریتم را با داده‌های اصلاح‌شده دوباره آموزش دادیم و این فرآیند را تا زمانی که همه با هم موافق بودیم تکرار کردیم. در حالی که برچسب‌گذاری ظهور شار معمولاً به صورت دستی انجام می‌شود، این تعامل تکراری بین الگوریتم انسان و ML تأیید دستی را تا 50 درصد کاهش می‌دهد.»

روش‌های برچسب‌گذاری تکراری مانند یادگیری فعال می‌توانند به میزان قابل توجهی در زمان صرفه‌جویی کنند و هزینه آماده‌سازی ML داده‌های بزرگ را کاهش دهند. علاوه بر این، با پنهان کردن تدریجی ویدیوها و جستجوی لحظه ای که الگوریتم ML طبقه بندی خود را تغییر می دهد، دانشمندان SwRI از الگوریتم آموزش دیده ML برای ارائه یک پایگاه داده غنی تر و مفیدتر استفاده کردند.

دکتر درک لمب از SwRI، یکی از نویسندگان متخصص در تکامل گفت: «ما یک رویکرد یادگیری عمیق و سرتاسر برای طبقه‌بندی ویدیوهای تکامل پچ مغناطیسی بدون ارائه صریح تصاویر بخش‌بندی شده، الگوریتم‌های ردیابی یا سایر ویژگی‌های دست ساز ایجاد کردیم. میدان های مغناطیسی روی سطح خورشید این پایگاه داده در توسعه روش‌های جدید برای پیش‌بینی ظهور مناطق پیچیده مساعد برای رویدادهای آب‌وهوای فضایی حیاتی خواهد بود و به طور بالقوه زمان آماده‌سازی برای آب‌وهوای فضایی را افزایش می‌دهد.»

منبع داستان:

مواد تهیه شده توسط پژوهشکده جنوب غرب. توجه: محتوا ممکن است برای سبک و طول ویرایش شود.



منبع

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]