الکسا و سیری، گوش کنید! آموزش ماشین‌ها برای شنیدن واقعی ما — ScienceDaily

در حالی که مجموعه داده‌های آموزشی که به عنوان ورودی عمل می‌کنند، و همچنین سرعت‌های محاسباتی بهبود یافته‌اند، این فرآیند هنوز ایده‌آل نیست زیرا برنامه‌نویسان لایه‌های بیشتری را برای تشخیص تفاوت‌ها و پیچیدگی‌های بیشتر اضافه می‌کنند – به اصطلاح یادگیری “عمیق” یا “کانولوشنال”.

UVA رمزگشای صدا را کد می کند

این عواقب دنیای واقعی برای محیط زیست دارد. در سال 2019، یک مطالعه نشان داد که انتشار دی اکسید کربن ناشی از انرژی مورد نیاز در آموزش یک مدل بزرگ یادگیری عمیق، معادل طول عمر پنج خودرو است.

سدربرگ گفت: «شما این کار را میلیون‌ها بار انجام می‌دهید.

او گفت که استثنای اصلی این قاعده، اطلاعاتی است که با سرعت بسیار بالا ارائه می شود. این داده ها همیشه ترجمه نمی شوند. او گفت: “شما بخش هایی از اطلاعات را از دست می دهید.”

ژاک گفت: «ما نشان دادیم که SITHCon می‌تواند به گفتار با مقیاس بالا یا پایین تعمیم دهد، در حالی که مدل‌های دیگر در رمزگشایی اطلاعات با سرعت‌هایی که در تمرین نمی‌بینند، شکست خورده‌اند.

سدربرگ گفت، نکته این است که وقتی نوبت به دریافت سیگنال‌های شنیداری می‌رسد، مانند انسان‌ها و سایر حیوانات – علیرغم تمام قدرت محاسباتی که توسط شرکت‌های سنگین وزنی مانند گوگل، دیپ مایند، آی‌بی‌ام و مایکروسافت برای این کار اختصاص داده شده است، هوش مصنوعی فعلی همچنان باقی است. کمی سخت شنوایی

ژاک، یک پدر جدید، گفت: “این که فکر کنیم کار ما ممکن است مسیر جدیدی را در هوش مصنوعی ایجاد کند، هیجان انگیز است.”



منبع

این تحقیقات موفقیت آمیز روز سه شنبه در کنفرانس بین المللی برجسته در مورد یادگیری ماشین یا ICML در بالتیمور ارائه شد.

اما با استفاده از پیشرفت‌های اخیر در علوم اعصاب به عنوان یک مدل، تحقیقات مشترک UVA امکان تبدیل شبکه‌های عصبی هوش مصنوعی موجود را به فناوری‌هایی که واقعاً می‌توانند صدای ما را بشنوند، بدون توجه به سرعتی که صحبت می‌کنیم، ممکن ساخته است.

نتایج می تواند از خنده دار و خفیف ناامید کننده تا کاملاً بیگانه برای کسانی که مشکلات گفتاری دارند متغیر باشد.

پر سدربرگ، دانشمند شناختی دانشگاه ویرجینیا، آزمایش جالبی دارد که می توانید آن را در خانه امتحان کنید. گوشی هوشمند خود را بیرون بیاورید و با استفاده از یک دستیار صوتی مانند دستیار موتور جستجوی گوگل، کلمه “اختاپوس” را تا جایی که می توانید آهسته بگویید.

ژاک که اولین نویسنده این مقاله است، گفت: «ما نشان داده‌ایم که می‌توانیم گفتار، به ویژه گفتار مقیاس‌شده را بهتر از هر مدلی که می‌شناسیم، رمزگشایی کنیم.

آزمایشگاه مارک هاوارد، محقق شناختی در دانشگاه بوستون، به کار بر روی کشف سلول زمانی ادامه می دهد. هاوارد که بیش از 20 سال با سدربرگ همکاری می کرد، چگونگی درک انسان از وقایع زندگی خود را مطالعه می کند. سپس این درک را به ریاضی تبدیل می کند.

اساساً، برنامه نویسان تعداد زیادی از صداهای مختلف را با استفاده از کلمات مختلف با سرعت های مختلف وارد می کنند و شبکه های بزرگ را از طریق فرآیندی به نام انتشار برگشتی آموزش می دهند. برنامه نویسان پاسخ هایی را که می خواهند به آن برسند می دانند، بنابراین اطلاعات مرتباً پالایش شده را به صورت حلقه ای تغذیه می کنند. سپس هوش مصنوعی شروع به دادن وزن مناسب به جنبه هایی از ورودی می کند که منجر به پاسخ های دقیق می شود. صداها به کاراکترهای قابل استفاده متن تبدیل می شوند.

چگونه مغز واقعاً گفتار را می شنود

سدربرگ افزود: “ما خودمان را به عنوان گروهی از افراد ناسازگار می بینیم. ما این مشکل را حل کردیم که خدمه بزرگ گوگل و دیپ مایند و اپل آن را حل نکردند.”

حدود پنج سال پیش، سدربرگ و هاوارد تشخیص دادند که حوزه هوش مصنوعی می تواند از چنین نمایش هایی با الهام از مغز بهره مند شود. آزمایشگاه حافظه محاسباتی سدربرگ با همکاری با آزمایشگاه هاوارد و با مشورت زوران تیگانج و همکارانش در دانشگاه ایندیانا، ساخت و آزمایش مدل‌ها را آغاز کرد.

ژاک حدود سه سال پیش به موفقیت بزرگی دست یافت که به او کمک کرد تا برای اثبات مفهوم نتیجه کدنویسی کند. این الگوریتم دارای فرمی از فشرده‌سازی است که می‌توان آن را در صورت لزوم باز کرد – دقیقاً به همان روشی که یک فایل فشرده در رایانه برای فشرده‌سازی و ذخیره فایل‌های با اندازه بزرگ کار می‌کند. دستگاه فقط “حافظه” صدا را با وضوحی ذخیره می کند که بعدا مفید خواهد بود و فضای ذخیره سازی را ذخیره می کند.

سلول های زمان به مغز کمک می کنند تا درک واحدی از صدا ایجاد کند، مهم نیست که اطلاعات چقدر سریع یا کند می رسد.

سدربرگ گفت: «در هسته آن، ما در تلاش برای شناسایی الگوهای معنادار در دنیای اطراف خود هستیم. این الگوها به ما کمک می‌کنند تا در مورد نحوه رفتار و نحوه هماهنگ کردن خود با محیط خود تصمیم بگیریم، بنابراین می‌توانیم تا حد امکان پاداش دریافت کنیم.»

سدربرگ گفت که خوشبین است که هوش مصنوعی که بهتر می شنود از نظر اخلاقی مورد توجه قرار گیرد، زیرا تمام فناوری ها باید در تئوری باشند.

او گفت، با این حال، برای مشکلات پیچیده ای مانند آموزش «شنیدن» زبان به ماشین ها، برنامه نویسان ناخواسته مسیری متفاوت از نحوه عملکرد واقعی مغز در پیش گرفتند. آنها نتوانستند بر اساس تحولات در درک علوم اعصاب حرکت کنند.

سدربرگ می‌گوید: «محققان اولیه هوش مصنوعی ویژگی‌های اولیه نورون‌ها و نحوه اتصال آنها به یکدیگر را گرفتند و آن‌ها را با کد رایانه‌ای بازسازی کردند.

دستگاه شما برای تکرار آنچه که گفتید مشکل دارد. ممکن است پاسخی بی معنی ارائه دهد، یا ممکن است چیزی نزدیک اما همچنان خاموش به شما بدهد – مانند “چرک انگشت پا”. ناخالص!

«اگر من بگویم «اوووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووووسسسسسسسسسسسس»، احتمالا تا حالا نشنیده بودید که کسی با اون سرعت بگه «اختاپوس»، و با این حال می‌توانید آن را درک کنید، زیرا روشی که مغز شما آن اطلاعات را پردازش می‌کند، «غیر متغیر مقیاس» نامیده می‌شود. سدربرگ گفت: «اصولاً معنی آن این است که اگر آن را شنیده باشید و یاد بگیرید که آن اطلاعات را در یک مقیاس رمزگشایی کنید، اگر این اطلاعات اکنون کمی سریعتر یا کمی کندتر یا حتی بسیار کندتر وارد شود، هنوز هم به دست خواهید آورد. آی تی.”

سه سال بعد، مجموعه داده ها و شبکه های عصبی به رشد خود ادامه دادند.

سدربرگ می‌گوید: «بنابراین الگوی خاصی از شلیک وجود دارد که آنچه را برای زمان خاصی در گذشته اتفاق افتاده رمزگذاری می‌کند، و اطلاعات هر چه در گذشته دورتر می‌شوند مبهم‌تر و مبهم‌تر می‌شوند.» نکته جالب این است که مارک و یک پزشک فوق دکتری که در آزمایشگاه مارک انجام می‌شود، از نظر ریاضی متوجه شد که چگونه باید باشد. سپس دانشمندان علوم اعصاب شروع به یافتن شواهدی برای آن در مغز کردند.

در نهایت نیازی به آموزش بیشتر نبود. هنگامی که هوش مصنوعی ارتباطات را با یک سرعت تشخیص داد، نمی‌توان آن را فریب داد اگر سخنران کلمات را به زبان بیاورد.

آموزش فعلی هوش مصنوعی: اضافه بار شنوایی

این توانایی جدید فقط تجربه کاربر نهایی را تغییر نخواهد داد. این پتانسیل را دارد که نحوه “فکر” شبکه های عصبی مصنوعی را تغییر دهد – به آنها اجازه می دهد اطلاعات را به طور موثرتری پردازش کنند. و این می تواند همه چیز را در صنعتی که دائماً به دنبال تقویت قابلیت پردازش، به حداقل رساندن ذخیره سازی داده ها و کاهش ردپای کربن عظیم هوش مصنوعی است، تغییر دهد.

پروفسور توضیح داد: «روش برخورد این شرکت‌های بزرگ با این مشکل، استفاده از منابع محاسباتی است. “بنابراین آنها شبکه های عصبی را بزرگتر می کنند. میدانی که در ابتدا از مغز الهام گرفته شده بود به یک مشکل مهندسی تبدیل شده است.”

زمان به اصوات زمینه می افزاید و این بخشی از چیزی است که به آنچه به ما گفته می شود معنی می دهد. هاوارد گفت که ریاضیات به خوبی جمع می شود.

اما با دانستن اینکه آنها تله موش بهتری ساخته اند، آیا محققان اصلاً نگران نحوه استفاده از فناوری جدید هستند؟

آموزش هوش مصنوعی برای SITHCon با یک منبع از قبل موجود به صورت رایگان در دسترس محققان به نام “شبکه کانولوشن موقت” مقایسه شد. هدف این بود که شبکه را از شبکه‌ای که فقط برای شنیدن با سرعت‌های خاص آموزش دیده بود، تبدیل کنیم.

این فرآیند با یک زبان اصلی آغاز شد – کد مورس، که از انفجارهای بلند و کوتاه صدا برای نشان دادن نقطه و خط تیره استفاده می کند – و به مجموعه ای متن باز از انگلیسی زبانان که اعداد 1 تا 9 را برای ورودی می گفتند، پیش رفت.

برای چندین دهه، اما بیشتر از آن در 20 سال گذشته، شرکت‌ها شبکه‌های عصبی مصنوعی پیچیده‌ای را در ماشین‌ها ساخته‌اند تا سعی کنند از نحوه تشخیص مغز انسان دنیای در حال تغییر تقلید کنند. این برنامه ها فقط بازیابی اطلاعات اولیه و مصرف گرایی را تسهیل نمی کنند. آنها همچنین در پیش بینی بازار سهام، تشخیص شرایط پزشکی و نظارت بر تهدیدات امنیت ملی، در میان بسیاری از کاربردهای دیگر، تخصص دارند.

ابزار یادگیری عمیق SITHCon نام دارد و با تعمیم ورودی، می تواند کلماتی را که با سرعت های متفاوتی نسبت به شبکه آموزش داده شده است، درک کند.

اکنون UVA تصمیم گرفته است تا کد خود را به صورت رایگان در دسترس قرار دهد تا دانش خود را ارتقا دهد. این تیم می‌گوید این اطلاعات باید با هر شبکه عصبی که صدا را ترجمه می‌کند، سازگار شود.

سدربرگ می‌گوید: «از آنجایی که اطلاعات به صورت لگاریتمی فشرده می‌شوند، زمانی که ورودی مقیاس‌بندی می‌شود، الگوی آن به طور کامل تغییر نمی‌کند، فقط جابجا می‌شود.»

او گفت: «در حال حاضر، این شرکت‌ها با تنگناهای محاسباتی مواجه شده‌اند و تلاش می‌کنند ابزارهای قدرتمندتر و مفیدتری بسازند. “شما باید امیدوار باشید که نکات مثبت بیشتر از موارد منفی باشد. اگر بتوانید فرآیندهای فکری بیشتری را در رایانه ها بارگذاری کنید، چه خوب و چه بد، دنیای سازنده تری برای ما خواهد ساخت.”

برنامه نویسان از مغز به عنوان الهام بخش اولیه خود برای این فناوری استفاده کردند، بنابراین نام “شبکه های عصبی” را به خود اختصاص دادند.

امروزه بیش از 7000 زبان در جهان صحبت می شود. تغییرات با لهجه‌ها و گویش‌ها، صداهای عمیق‌تر یا بالاتر – و البته گفتار سریع‌تر یا آهسته‌تر به وجود می‌آیند. همانطور که رقبا محصولات بهتری ایجاد می کنند، در هر مرحله، یک کامپیوتر باید اطلاعات را پردازش کند.

معادله هاوارد که حافظه شنوایی را توصیف می کند شامل یک جدول زمانی است. خط زمانی با استفاده از سلول های زمانی که به ترتیب شلیک می شوند ساخته می شود. به طور بحرانی، معادله پیش‌بینی می‌کند که با حرکت صدا به سمت گذشته، خط زمانی محو می‌شود – و به روشی خاص. دلیل آن این است که حافظه مغز از یک رویداد با گذشت زمان کمتر دقیق می شود.

سدربرگ گفت: «ما همه کدها را منتشر و منتشر خواهیم کرد زیرا به علم باز اعتقاد داریم. “امید این است که شرکت ها این را ببینند، واقعا هیجان زده شوند و بگویند که مایلند بودجه ادامه کار ما را تامین کنند. ما از روشی اساسی استفاده کرده ایم که مغز اطلاعات را پردازش می کند، قدرت و کارایی را با هم ترکیب می کند، و فقط سطح را خراشیده ایم. آنچه که این مدل های هوش مصنوعی می توانند انجام دهند.”

هاوارد آیکنبام فقید از دانشگاه بوستون اصطلاح “سلول های زمان” را ابداع کرد، پدیده ای که این تحقیق جدید هوش مصنوعی بر اساس آن ساخته شده است. دانشمندان علوم اعصاب با مطالعه سلول‌های زمانی در موش‌ها و سپس انسان‌ها، نشان دادند که وقتی مغز ورودی‌های مبتنی بر زمان مانند صدا را تفسیر می‌کند، جهش‌هایی در فعالیت عصبی وجود دارد. این نورون‌های منفرد که در هیپوکامپ و سایر بخش‌های مغز قرار دارند، فواصل خاصی را می‌گیرند – نقاط داده‌ای که مغز در رابطه بررسی و تفسیر می‌کند. سلول ها در کنار به اصطلاح “سلول های مکان” قرار دارند که به ما در ایجاد نقشه های ذهنی کمک می کنند.

هاوارد می گوید: «به نظر می رسد سلول های زمان در مغز از این معادله پیروی می کنند.

سدربرگ، دانشیار روان‌شناسی که به عنوان مدیر برنامه علوم شناختی در UVA خدمت می‌کند، با دانشجوی فارغ‌التحصیل براندون ژاک برای برنامه‌ریزی یک نمایش آزمایشی از این فناوری، با همکاری محققان دانشگاه بوستون و دانشگاه ایندیانا، همکاری کرد.

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]