بسیاری از پروژه ها با ایجاد فهرست کلمات شروع می شوند. نه تنها در شرکت ها زمانی که نقشه های ذهنی ایجاد می شود، بلکه در تمام زمینه های تحقیقاتی. تصور کنید می خواهید با تجزیه و تحلیل پست های توییتر متوجه شوید که در چه روزهایی مردم روحیه خوبی دارند. فقط جستجوی کلمه “شاد” کافی نیست.
استقلال از خود زبان
دی ناتال می گوید: “اگر آنها را در بسیاری از زبان ها جمع آوری کنید – و در اینجا ما حدود 19 زبان مختلف را تجزیه و تحلیل کردیم – می توانید ارتباط بین آنها را ببینید.” این شبکه زمانی شکل میگیرد که این ترکیببندیها در چندین زبان در میان خانوادههای زبانی مختلف رخ میدهند و ارتباطاتی ایجاد میکنند.
این مشکل گسترده نه تنها به پژوهشگرانی مربوط می شود که می خواهند بدانند اظهارات سیاستمداران چگونه توسط مردم دریافت می شود. شرکتها نیز میخواهند از طریق تحلیل احساسات متوجه شوند که محصولاتشان چگونه درک میشود.
در عوض، باید از الگوریتمی استفاده کنید که تمام توییتهایی را که نشان میدهند کسی خوشحال است را شناسایی میکند. آنا دی ناتال، محقق مرکز علوم پیچیدگی در وین، توضیح میدهد: «پس اولین قدم ایجاد فهرستی از تمام کلماتی است که دقیقاً این را نشان میدهند. اما چگونه میتوان دقیقترین و کاملترین فهرست کلمات ممکن را به دست آورد؟
فهرستهای واژهها اساس تحقیقات بسیاری در زمینههای مختلف است. محققان در Complexity Science Hub اکنون الگوریتمی را توسعه داده اند که می تواند در زبان های مختلف اعمال شود و می تواند لیست کلمات را به طور قابل توجهی بهتر از دیگران گسترش دهد.
برای بسیاری از موضوعات از قبل فهرست کلمات خوبی وجود دارد. اما برای موضوعات جدید – مانند زمانی که COVID مطرح شد – موضوعات جدید باید ایجاد شود. تا پیش از این، آنها معمولاً با دست در هنگام طوفان فکری با همکاران ایجاد می شدند و از چندین ابزار برای کمک استفاده می کردند. اما تا به حال هیچ راهی برای مقایسه آنها وجود نداشت. Anna Di Natale و تیمش اکنون این امکان را ایجاد کرده اند و همچنین ابزار جدیدی ساخته اند که عملکرد بهتری نسبت به سایرین دارد. این می تواند سنگ بنای مهمی برای بسیاری از پروژه های تحقیقاتی آینده در زمینه های مختلف باشد.
برای بهبود شرایط، Di Natale اکنون روش جدیدی به نام LEXpander ایجاد کرده است که از الگوریتم های قبلی بهتر عمل می کند. و این حتی به دو زبان مختلف — آلمانی و انگلیسی. علاوه بر این، برای اولین بار، او راهی را ایجاد کرده است که از طریق آن امکان مقایسه ابزارهای مختلف وجود دارد.
برای موضوعات جدیدی مانند COVID مهم است
عملکرد بهبود یافته
دلیل آن این است که این ابزار به طور مستقل از زبان کار می کند. این مبتنی بر یک زبان نیست، بلکه بر اساس یک شبکه به اصطلاح colexification است. این مفهوم زبانی شناخته شده بر روی همنام ها و چندمعنایی ها قرار دارد، کلمات واحدی که دو یا چند معنای متمایز دارند. به عنوان مثال: کلمه یونانی باستان دارو (pharmacon) می تواند به معنای دارو یا سم باشد. دو چیز متفاوت، اما از نظر موضوعی نزدیک. اما موارد دیگری نیز وجود دارند که رابطه خویشاوندی را پیشنهاد نمی کنند — مانند “بانک” به عنوان یک موسسه مالی یا زمین در کنار رودخانه.
این استقلال از خود زبان به LEXpander اجازه می دهد تا در زبان های مختلف به نتایج بهتری دست یابد. “روش های زیادی برای انگلیسی توسعه داده شده است. آنها بسیار خوب و سریع کار می کنند و همه از آنها استفاده می کنند. تلاش برای اعمال آنها در زبان های دیگر کار می کند، اما نه به آن خوبی که اگر شما شروع به توسعه روشی برای آلمانی یا ایتالیایی کرده باشید.” دی ناتال توضیح می دهد.
در مقایسه با چهار الگوریتم دیگر برای گسترش فهرست کلمات (WordNet، Empath 2.0، FastText و GloVe)، LEXpander به طور قابل توجهی بهتر عمل کرد، به خصوص در زبان آلمانی. به عنوان مثال، محققان دریافتند که LEXpander 43٪ از کلمات را درست هنگام گسترش فهرست کلمات انگلیسی برای معنای مثبت حدس میزند. یک مدل بسیار محبوب، FastText، در مقایسه، تنها در 28٪ مواقع درست است.
مشکلی که خیلی ها را نگران می کند