
بروزرسانی: 27 خرداد 1404
مدل جدید هوش مصنوعی TabPFN پیش بینی های سریع تر و دقیق تری را در مجموعه داده های کوچک جدولی امکان پذیر می کند
پر کردن شکاف ها در مجموعه داده ها یا شناسایی نقاط پرت -- این حوزه الگوریتم یادگیری ماشین TabPFN است که توسط تیمی به سرپرستی پروفسور دکتر فرانک هاتر از دانشگاه فرایبورگ ایجاد شده است. این هوش مصنوعی (AI) از روش های یادگیری الهام گرفته از مدل های زبان بزرگ استفاده می کند. TabPFN روابط علّی را از داده های مصنوعی یاد می گیرد و بنابراین احتمال بیشتری دارد که پیش بینی های صحیحی را نسبت به الگوریتم های استانداردی که تا کنون استفاده شده است انجام دهد. نتایج در مجله منتشر شد طبیعت. علاوه بر دانشگاه فرایبورگ، مرکز پزشکی دانشگاه فرایبورگ، Charité -- پزشکی دانشگاه برلین، استارت آپ فرایبورگ PriorLabs و مؤسسه ELLIS Tübingen نیز مشارکت داشتند.
مجموعه داده ها، چه بر روی اثرات برخی داروها یا مسیرهای ذرات در شتاب دهنده های سرن باشند، به ندرت کامل یا بدون خطا هستند. بنابراین، بخش مهمی از تجزیه و تحلیل داده های علمی، شناسایی مقادیر پرت یا پیش بینی تخمین های معنادار برای مقادیر از دست رفته است. الگوریتم های موجود، مانند XGBoost، به خوبی با مجموعه داده های بزرگ کار می کنند، اما اغلب با حجم داده های کوچکتر قابل اعتماد نیستند.
هاتر و تیمش با استفاده از مدل TabPFN، این مشکل را با آموزش الگوریتم بر روی مجموعه داده های ساخته شده مصنوعی که بر اساس سناریوهای واقعی مدل شده اند، حل می کنند. برای انجام این کار، دانشمندان جداول داده ای را ایجاد می کنند که در آن ورودی های ستون های جداول به صورت علی به هم مرتبط هستند. TabPFN با 100 میلیون مجموعه داده مصنوعی آموزش داده شد. این آموزش به مدل می آموزد تا روابط علّی مختلف را ارزیابی کند و از آنها برای پیش بینی های خود استفاده کند.
این مدل به خصوص برای جداول کوچک با کمتر از 10000 سطر، مقادیر پرت یا تعداد زیادی مقادیر گمشده از سایر الگوریتم ها بهتر عمل می کند. به عنوان مثال، TabPFN تنها به 50٪ از داده ها نیاز دارد تا به همان دقت بهترین مدل قبلی دست یابد. علاوه بر این، TabPFN نسبت به الگوریتم های قبلی در مدیریت انواع جدید داده کارآمدتر است. به جای شروع یک فرآیند یادگیری جدید برای هر مجموعه داده، مدل را می توان با مجموعه داده های مشابه تطبیق داد. این فرآیند شبیه به انطباق مدل های زبانی با وزن های باز مانند Llama است که توسط Meta توسعه یافته است. این مدل همچنین امکان استخراج چگالی احتمال را از یک مجموعه داده و تولید داده های جدید با ویژگی های مشابه از آن فراهم می کند.
هاتر می گوید: «توانایی استفاده از TabPFN برای محاسبه قابل اعتماد و سریع پیش بینی ها از داده های جدولی برای بسیاری از رشته ها، از زیست پزشکی گرفته تا اقتصاد و فیزیک، مفید است. "TabPFN نتایج بهتری را سریعتر ارائه می دهد و به دلیل اینکه به منابع و داده های کمی نیاز دارد، برای شرکت ها و تیم های کوچک ایده آل است." کد و دستورالعمل نحوه استفاده از آن را می توانید در اینجا بیابید. در مرحله بعدی، محققان هوش مصنوعی را بیشتر توسعه خواهند داد تا بتواند بهترین پیش بینی های ممکن را حتی با مجموعه داده های بزرگتر انجام دهد.
منبع