نرم افزار جدید به افراد غیرمتخصص اجازه می دهد تا به طور مستقیم ماشین ها را با استفاده از حرکات – ScienceDaily آموزش دهند


بسیاری از سیستم‌های رایانه‌ای که افراد روزانه با آن‌ها در تعامل هستند، برای کار کردن نیاز به دانش در مورد جنبه‌های خاصی از جهان یا مدل‌ها دارند. این سیستم ها باید آموزش ببینند و اغلب نیاز به یادگیری تشخیص اشیاء از داده های ویدئویی یا تصویری دارند. این داده ها اغلب حاوی محتوای اضافی است که دقت مدل ها را کاهش می دهد. بنابراین محققان راهی برای گنجاندن حرکات طبیعی دست در فرآیند آموزش پیدا کردند. به این ترتیب، کاربران می توانند راحت تر به ماشین ها در مورد اشیاء آموزش دهند و ماشین ها نیز می توانند به طور موثرتری یاد بگیرند.

احتمالاً قبلاً اصطلاح یادگیری ماشینی را شنیده اید، اما آیا با آموزش ماشینی آشنایی دارید؟ یادگیری ماشینی چیزی است که در پشت صحنه زمانی اتفاق می‌افتد که کامپیوتر از داده‌های ورودی برای ایجاد مدل‌هایی استفاده می‌کند که بعداً می‌توانند برای انجام عملکردهای مفید مورد استفاده قرار گیرند. اما آموزش ماشینی قسمتی است که تا حدودی کمتر مورد بررسی قرار گرفته است، یعنی اینکه کامپیوتر چگونه داده های ورودی خود را برای شروع دریافت می کند. در مورد سیستم‌های بصری، برای مثال سیستم‌هایی که می‌توانند اشیا را تشخیص دهند، مردم باید اشیا را به رایانه نشان دهند تا بتواند در مورد آنها اطلاعات کسب کند. اما روش‌هایی که معمولاً این کار انجام می‌شود اشکالاتی دارد که محققان آزمایشگاه سیستم‌های هوشمند تعاملی دانشگاه توکیو به دنبال بهبود آن بودند.

ژونگی ژو، دانشجوی فارغ التحصیل می گوید: «در یک سناریوی معمولی آموزش شی، افراد می توانند یک شی را نزدیک دوربین نگه دارند و آن را به اطراف حرکت دهند تا رایانه بتواند آن را از همه زوایای آن تجزیه و تحلیل کند تا یک مدل بسازد. با این حال، ماشین‌ها فاقد توانایی تکامل‌یافته ما برای جداسازی اشیا از محیط‌شان هستند، بنابراین مدل‌هایی که می‌سازند می‌توانند ناخواسته شامل اطلاعات غیرضروری از پس‌زمینه تصاویر آموزشی باشند. این اغلب به این معنی است که کاربران باید زمان خود را برای اصلاح مدل‌های تولید شده صرف کنند، که می‌تواند نسبتاً یک مشکل باشد. کار فنی و زمان بر است. ما فکر کردیم باید راه بهتری برای انجام این کار وجود داشته باشد که هم برای کاربران و هم برای رایانه ها بهتر باشد، و با سیستم جدید ما، LookHere، من معتقدم که آن را پیدا کرده ایم.”

ژو، با همکاری پروفسور کوجی یاتانی، LookHere را برای رسیدگی به دو مشکل اساسی در آموزش ماشینی ایجاد کرد: اول، مشکل کارایی آموزش، با هدف به حداقل رساندن زمان کاربران، و دانش فنی مورد نیاز. و دوم، کارایی یادگیری — چگونه می توان از داده های یادگیری بهتر برای ماشین ها اطمینان حاصل کرد تا مدل هایی از آنها ایجاد کنند. LookHere با انجام کاری جدید و به‌طور شگفت‌انگیز شهودی به این موارد دست می‌یابد. این دستگاه حرکات دست کاربران را در نحوه پردازش یک تصویر قبل از اینکه دستگاه آن را در مدل خود که به نام HuTics شناخته می شود، وارد کند، ترکیب می کند. به عنوان مثال، یک کاربر می تواند به دوربین اشاره کند یا یک شی را به گونه ای به دوربین نشان دهد که بر اهمیت آن در مقایسه با سایر عناصر موجود در صحنه تأکید کند. این دقیقاً چگونه است که افراد ممکن است اشیا را به یکدیگر نشان دهند. و با حذف جزئیات اضافی، به لطف تأکید بیشتر بر آنچه واقعاً در تصویر مهم است، رایانه داده های ورودی بهتری را برای مدل های خود به دست می آورد.

ژو گفت: «این ایده کاملاً ساده است، اما اجرای آن بسیار چالش برانگیز بود. “هرکسی متفاوت است و هیچ مجموعه استانداردی از حرکات دست وجود ندارد. بنابراین، ما ابتدا 2040 ویدئوی نمونه از 170 نفر را که اشیا را به دوربین ارائه می کردند در HuTics جمع آوری کردیم. این دارایی ها حاشیه نویسی شدند تا مشخص کنند چه بخشی از جسم و چه قسمت هایی از آن است. تصویر فقط دستان شخص بود. LookHere با HuTics آموزش دیده بود و در مقایسه با سایر روش‌های تشخیص اشیا، بهتر می‌تواند تعیین کند که چه بخش‌هایی از یک تصویر دریافتی باید برای ساخت مدل‌های آن استفاده شود. برای اطمینان از اینکه تا حد امکان در دسترس است، کاربران می‌توانند از تلفن‌های هوشمند خود برای کار با LookHere استفاده می‌کنند و پردازش واقعی روی سرورهای راه دور انجام می‌شود. ما همچنین کد منبع و مجموعه داده‌های خود را منتشر کردیم تا دیگران در صورت تمایل بتوانند بر اساس آن بسازند.”

ژو و یاتانی با توجه به کاهش تقاضا برای زمان کاربران که LookHere برای مردم فراهم می کند، دریافتند که می تواند مدل هایی را تا 14 برابر سریعتر از برخی از سیستم های موجود بسازد. در حال حاضر، LookHere با ماشین‌های آموزشی درباره اشیاء فیزیکی سر و کار دارد و منحصراً از داده‌های بصری برای ورودی استفاده می‌کند. اما در تئوری، این مفهوم را می توان برای استفاده از انواع دیگر داده های ورودی مانند داده های صوتی یا علمی گسترش داد. و مدل های ساخته شده از این داده ها نیز از پیشرفت های مشابهی در دقت بهره مند خواهند شد.

منبع داستان:

مواد تهیه شده توسط دانشگاه توکیو. توجه: محتوا ممکن است برای سبک و طول ویرایش شود.



منبع

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]