تجربه بصری کودکان ممکن است کلید آموزش بینایی کامپیوتری بهتر باشد


بر اساس تحقیقات یک تیم بین رشته‌ای ایالت پن.

در دو سال اول زندگی، کودکان مجموعه‌ای از اشیاء و چهره‌های باریک را تجربه می‌کنند، اما با دیدگاه‌های مختلف و در شرایط نوری متفاوت. با الهام از این بینش توسعه‌ای، محققان یک رویکرد یادگیری ماشینی جدید را معرفی کردند که از اطلاعات موقعیت مکانی برای آموزش کارآمدتر سیستم‌های بصری هوش مصنوعی استفاده می‌کند. آن ها دریافتند که مدل های هوش مصنوعی آموزش دیده با روش جدید تا 14.99 درصد از مدل های پایه بهتر عمل کرده اند. آنها یافته های خود را در شماره ماه مه مجله Patterns گزارش کردند.

لیژن ژو، نویسنده اصلی و کاندیدای دکترا در این مطالعه گفت: “رویکردهای فعلی در هوش مصنوعی از مجموعه‌های عظیمی از عکس‌های به‌هم ریخته تصادفی از اینترنت برای آموزش استفاده می‌کنند. در مقابل، استراتژی ما توسط روان‌شناسی رشدی که به مطالعه نحوه درک کودکان از جهان می‌پردازد، ارائه می‌شود.” کالج علوم و فناوری اطلاعات در ایالت پن.

محققان یک الگوریتم یادگیری متضاد جدید را توسعه دادند که نوعی روش یادگیری خود نظارت است که در آن یک سیستم هوش مصنوعی یاد می‌گیرد تا الگوهای بصری را شناسایی کند تا زمانی که دو تصویر مشتقاتی از یک تصویر پایه هستند و در نتیجه یک جفت مثبت ایجاد می‌شود. با این حال، این الگوریتم‌ها اغلب تصاویر یک شی را که از دیدگاه‌های مختلف گرفته شده‌اند، به‌عنوان موجودیت‌های جداگانه در نظر می‌گیرند تا جفت‌های مثبت. به گفته محققان، در نظر گرفتن داده‌های محیطی، از جمله مکان، به سیستم هوش مصنوعی این امکان را می‌دهد تا بر این چالش‌ها غلبه کند و جفت‌های مثبت را بدون توجه به تغییر موقعیت یا چرخش دوربین، زاویه یا شرایط نور و فاصله کانونی یا زوم تشخیص دهد.

“ما فرض می کنیم که یادگیری بصری نوزادان به درک مکان بستگی دارد. به منظور تولید یک مجموعه داده خود محور با اطلاعات مکانی-زمانی، ما محیط های مجازی را در پلتفرم ThreeDWorld راه اندازی کردیم، که یک محیط شبیه سازی فیزیکی سه بعدی با وفاداری بالا، تعاملی و تعاملی است. ژو افزود: ما مکان دوربین‌های مشاهده را طوری دستکاری و اندازه‌گیری کنیم که گویی یک کودک در حال قدم زدن در خانه است.

دانشمندان سه محیط شبیه سازی ایجاد کردند – House14K، House100K و Apartment14K، با '14K' و '100K' که به تعداد تقریبی نمونه تصاویر گرفته شده در هر محیط اشاره دارد. سپس آنها مدل‌ها و مدل‌های یادگیری متضاد پایه را با الگوریتم جدید از طریق شبیه‌سازی‌ها سه بار اجرا کردند تا ببینند هر یک از تصاویر چقدر طبقه‌بندی شده‌اند. این تیم متوجه شد که مدل‌هایی که بر اساس الگوریتم آن‌ها آموزش دیده‌اند، در کارهای مختلف از مدل‌های پایه بهتر عمل می‌کنند. به عنوان مثال، در یک کار شناسایی اتاق در آپارتمان مجازی، مدل افزوده شده به طور متوسط ​​99.35% انجام شد که 14.99% نسبت به مدل پایه بهبود داشت. این مجموعه داده های جدید برای سایر دانشمندان در دسترس هستند تا از طریق آموزش از آنها استفاده کنند www.child-view.com.

جیمز وانگ، استاد برجسته علوم اطلاعات گفت: “آموزش در یک محیط جدید با مقدار کمی داده برای مدل ها همیشه سخت است. کار ما نشان دهنده یکی از اولین تلاش ها برای آموزش هوش مصنوعی با انرژی کارآمدتر و انعطاف پذیرتر با استفاده از محتوای بصری است.” و تکنولوژی و مشاور زو.

به گفته دانشمندان، این تحقیق پیامدهایی برای توسعه آینده سیستم‌های هوش مصنوعی پیشرفته به منظور هدایت و یادگیری از محیط‌های جدید دارد.

وانگ می‌گوید: «این رویکرد به‌ویژه در شرایطی مفید خواهد بود که تیمی از روبات‌های خودران با منابع محدود نیاز به یادگیری نحوه حرکت در یک محیط کاملاً ناآشنا دارند.» “برای هموار کردن راه برای کاربردهای آینده، ما قصد داریم مدل خود را برای استفاده بهتر از اطلاعات مکانی و ترکیب محیط های متنوع تر اصلاح کنیم.”

همکارانی از دپارتمان روانشناسی پن استیت و دپارتمان علوم و مهندسی کامپیوتر نیز در این مطالعه مشارکت داشتند. این کار توسط بنیاد ملی علوم ایالات متحده و همچنین موسسه علوم محاسباتی و داده در ایالت پن پشتیبانی شده است.



منبع

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]