ژونگی ژو، دانشجوی فارغ التحصیل می گوید: «در یک سناریوی معمولی آموزش شی، افراد می توانند یک شی را نزدیک دوربین نگه دارند و آن را به اطراف حرکت دهند تا رایانه بتواند آن را از همه زوایای آن تجزیه و تحلیل کند تا یک مدل بسازد. با این حال، ماشینها فاقد توانایی تکاملیافته ما برای جداسازی اشیا از محیطشان هستند، بنابراین مدلهایی که میسازند میتوانند ناخواسته شامل اطلاعات غیرضروری از پسزمینه تصاویر آموزشی باشند. این اغلب به این معنی است که کاربران باید زمان خود را برای اصلاح مدلهای تولید شده صرف کنند، که میتواند نسبتاً یک مشکل باشد. کار فنی و زمان بر است. ما فکر کردیم باید راه بهتری برای انجام این کار وجود داشته باشد که هم برای کاربران و هم برای رایانه ها بهتر باشد، و با سیستم جدید ما، LookHere، من معتقدم که آن را پیدا کرده ایم.”
بسیاری از سیستمهای رایانهای که افراد روزانه با آنها در تعامل هستند، برای کار کردن نیاز به دانش در مورد جنبههای خاصی از جهان یا مدلها دارند. این سیستم ها باید آموزش ببینند و اغلب نیاز به یادگیری تشخیص اشیاء از داده های ویدئویی یا تصویری دارند. این داده ها اغلب حاوی محتوای اضافی است که دقت مدل ها را کاهش می دهد. بنابراین محققان راهی برای گنجاندن حرکات طبیعی دست در فرآیند آموزش پیدا کردند. به این ترتیب، کاربران می توانند راحت تر به ماشین ها در مورد اشیاء آموزش دهند و ماشین ها نیز می توانند به طور موثرتری یاد بگیرند.
احتمالاً قبلاً اصطلاح یادگیری ماشینی را شنیده اید، اما آیا با آموزش ماشینی آشنایی دارید؟ یادگیری ماشینی چیزی است که در پشت صحنه زمانی اتفاق میافتد که کامپیوتر از دادههای ورودی برای ایجاد مدلهایی استفاده میکند که بعداً میتوانند برای انجام عملکردهای مفید مورد استفاده قرار گیرند. اما آموزش ماشینی قسمتی است که تا حدودی کمتر مورد بررسی قرار گرفته است، یعنی اینکه کامپیوتر چگونه داده های ورودی خود را برای شروع دریافت می کند. در مورد سیستمهای بصری، برای مثال سیستمهایی که میتوانند اشیا را تشخیص دهند، مردم باید اشیا را به رایانه نشان دهند تا بتواند در مورد آنها اطلاعات کسب کند. اما روشهایی که معمولاً این کار انجام میشود اشکالاتی دارد که محققان آزمایشگاه سیستمهای هوشمند تعاملی دانشگاه توکیو به دنبال بهبود آن بودند.
منبع داستان:
ژو، با همکاری پروفسور کوجی یاتانی، LookHere را برای رسیدگی به دو مشکل اساسی در آموزش ماشینی ایجاد کرد: اول، مشکل کارایی آموزش، با هدف به حداقل رساندن زمان کاربران، و دانش فنی مورد نیاز. و دوم، کارایی یادگیری — چگونه می توان از داده های یادگیری بهتر برای ماشین ها اطمینان حاصل کرد تا مدل هایی از آنها ایجاد کنند. LookHere با انجام کاری جدید و بهطور شگفتانگیز شهودی به این موارد دست مییابد. این دستگاه حرکات دست کاربران را در نحوه پردازش یک تصویر قبل از اینکه دستگاه آن را در مدل خود که به نام HuTics شناخته می شود، وارد کند، ترکیب می کند. به عنوان مثال، یک کاربر می تواند به دوربین اشاره کند یا یک شی را به گونه ای به دوربین نشان دهد که بر اهمیت آن در مقایسه با سایر عناصر موجود در صحنه تأکید کند. این دقیقاً چگونه است که افراد ممکن است اشیا را به یکدیگر نشان دهند. و با حذف جزئیات اضافی، به لطف تأکید بیشتر بر آنچه واقعاً در تصویر مهم است، رایانه داده های ورودی بهتری را برای مدل های خود به دست می آورد.
مواد تهیه شده توسط دانشگاه توکیو. توجه: محتوا ممکن است برای سبک و طول ویرایش شود.
ژو و یاتانی با توجه به کاهش تقاضا برای زمان کاربران که LookHere برای مردم فراهم می کند، دریافتند که می تواند مدل هایی را تا 14 برابر سریعتر از برخی از سیستم های موجود بسازد. در حال حاضر، LookHere با ماشینهای آموزشی درباره اشیاء فیزیکی سر و کار دارد و منحصراً از دادههای بصری برای ورودی استفاده میکند. اما در تئوری، این مفهوم را می توان برای استفاده از انواع دیگر داده های ورودی مانند داده های صوتی یا علمی گسترش داد. و مدل های ساخته شده از این داده ها نیز از پیشرفت های مشابهی در دقت بهره مند خواهند شد.