یک راه جدید و بهتر برای ایجاد لیست کلمات -- ScienceDaily
انتشار: اسفند 22، 1401
بروزرسانی: 25 خرداد 1404

یک راه جدید و بهتر برای ایجاد لیست کلمات -- ScienceDaily

در مقایسه با چهار الگوریتم دیگر برای گسترش فهرست کلمات (WordNet، Empath 2.0، FastText و GloVe)، LEXpander به طور قابل توجهی بهتر عمل کرد، به خصوص در زبان آلمانی. به عنوان مثال، محققان دریافتند که LEXpander 43٪ از کلمات را درست هنگام گسترش فهرست کلمات انگلیسی برای معنای مثبت حدس می زند. یک مدل بسیار محبوب، FastText، در مقایسه، تنها در 28٪ مواقع درست است.

برای موضوعات جدیدی مانند COVID مهم است

دی ناتال می گوید: "اگر آنها را در بسیاری از زبان ها جمع آوری کنید - و در اینجا ما حدود 19 زبان مختلف را تجزیه و تحلیل کردیم - می توانید ارتباط بین آنها را ببینید." این شبکه زمانی شکل می گیرد که این ترکیب بندی ها در چندین زبان در میان خانواده های زبانی مختلف رخ می دهند و ارتباطاتی ایجاد می کنند.

این مشکل گسترده نه تنها به پژوهشگرانی مربوط می شود که می خواهند بدانند اظهارات سیاستمداران چگونه توسط مردم دریافت می شود. شرکت ها نیز می خواهند از طریق تحلیل احساسات متوجه شوند که محصولاتشان چگونه درک می شود.

برای بسیاری از موضوعات از قبل فهرست کلمات خوبی وجود دارد. اما برای موضوعات جدید - مانند زمانی که COVID مطرح شد - موضوعات جدید باید ایجاد شود. تا پیش از این، آنها معمولاً با دست در هنگام طوفان فکری با همکاران ایجاد می شدند و از چندین ابزار برای کمک استفاده می کردند. اما تا به حال هیچ راهی برای مقایسه آنها وجود نداشت. Anna Di Natale و تیمش اکنون این امکان را ایجاد کرده اند و همچنین ابزار جدیدی ساخته اند که عملکرد بهتری نسبت به سایرین دارد. این می تواند سنگ بنای مهمی برای بسیاری از پروژه های تحقیقاتی آینده در زمینه های مختلف باشد.



منبع فهرست های واژه ها اساس تحقیقات بسیاری در زمینه های مختلف است. محققان در Complexity Science Hub اکنون الگوریتمی را توسعه داده اند که می تواند در زبان های مختلف اعمال شود و می تواند لیست کلمات را به طور قابل توجهی بهتر از دیگران گسترش دهد.

این استقلال از خود زبان به LEXpander اجازه می دهد تا در زبان های مختلف به نتایج بهتری دست یابد. "روش های زیادی برای انگلیسی توسعه داده شده است. آنها بسیار خوب و سریع کار می کنند و همه از آنها استفاده می کنند. تلاش برای اعمال آنها در زبان های دیگر کار می کند، اما نه به آن خوبی که اگر شما شروع به توسعه روشی برای آلمانی یا ایتالیایی کرده باشید." دی ناتال توضیح می دهد.

در عوض، باید از الگوریتمی استفاده کنید که تمام توییت هایی را که نشان می دهند کسی خوشحال است را شناسایی می کند. آنا دی ناتال، محقق مرکز علوم پیچیدگی در وین، توضیح می دهد: «پس اولین قدم ایجاد فهرستی از تمام کلماتی است که دقیقاً این را نشان می دهند. اما چگونه می توان دقیق ترین و کامل ترین فهرست کلمات ممکن را به دست آورد؟

استقلال از خود زبان

دلیل آن این است که این ابزار به طور مستقل از زبان کار می کند. این مبتنی بر یک زبان نیست، بلکه بر اساس یک شبکه به اصطلاح colexification است. این مفهوم زبانی شناخته شده بر روی همنام ها و چندمعنایی ها قرار دارد، کلمات واحدی که دو یا چند معنای متمایز دارند. به عنوان مثال: کلمه یونانی باستان دارو (pharmacon) می تواند به معنای دارو یا سم باشد. دو چیز متفاوت، اما از نظر موضوعی نزدیک. اما موارد دیگری نیز وجود دارند که رابطه خویشاوندی را پیشنهاد نمی کنند -- مانند "بانک" به عنوان یک موسسه مالی یا زمین در کنار رودخانه.

مشکلی که خیلی ها را نگران می کند

عملکرد بهبود یافته

برای بهبود شرایط، Di Natale اکنون روش جدیدی به نام LEXpander ایجاد کرده است که از الگوریتم های قبلی بهتر عمل می کند. و این حتی به دو زبان مختلف -- آلمانی و انگلیسی. علاوه بر این، برای اولین بار، او راهی را ایجاد کرده است که از طریق آن امکان مقایسه ابزارهای مختلف وجود دارد.

بسیاری از پروژه ها با ایجاد فهرست کلمات شروع می شوند. نه تنها در شرکت ها زمانی که نقشه های ذهنی ایجاد می شود، بلکه در تمام زمینه های تحقیقاتی. تصور کنید می خواهید با تجزیه و تحلیل پست های توییتر متوجه شوید که در چه روزهایی مردم روحیه خوبی دارند. فقط جستجوی کلمه "شاد" کافی نیست.