یک راه جدید و بهتر برای ایجاد لیست کلمات — ScienceDaily

بسیاری از پروژه ها با ایجاد فهرست کلمات شروع می شوند. نه تنها در شرکت ها زمانی که نقشه های ذهنی ایجاد می شود، بلکه در تمام زمینه های تحقیقاتی. تصور کنید می خواهید با تجزیه و تحلیل پست های توییتر متوجه شوید که در چه روزهایی مردم روحیه خوبی دارند. فقط جستجوی کلمه “شاد” کافی نیست.

استقلال از خود زبان

دی ناتال می گوید: “اگر آنها را در بسیاری از زبان ها جمع آوری کنید – و در اینجا ما حدود 19 زبان مختلف را تجزیه و تحلیل کردیم – می توانید ارتباط بین آنها را ببینید.” این شبکه زمانی شکل می‌گیرد که این ترکیب‌بندی‌ها در چندین زبان در میان خانواده‌های زبانی مختلف رخ می‌دهند و ارتباطاتی ایجاد می‌کنند.

این مشکل گسترده نه تنها به پژوهشگرانی مربوط می شود که می خواهند بدانند اظهارات سیاستمداران چگونه توسط مردم دریافت می شود. شرکت‌ها نیز می‌خواهند از طریق تحلیل احساسات متوجه شوند که محصولاتشان چگونه درک می‌شود.

در عوض، باید از الگوریتمی استفاده کنید که تمام توییت‌هایی را که نشان می‌دهند کسی خوشحال است را شناسایی می‌کند. آنا دی ناتال، محقق مرکز علوم پیچیدگی در وین، توضیح می‌دهد: «پس اولین قدم ایجاد فهرستی از تمام کلماتی است که دقیقاً این را نشان می‌دهند. اما چگونه می‌توان دقیق‌ترین و کامل‌ترین فهرست کلمات ممکن را به دست آورد؟

فهرست‌های واژه‌ها اساس تحقیقات بسیاری در زمینه‌های مختلف است. محققان در Complexity Science Hub اکنون الگوریتمی را توسعه داده اند که می تواند در زبان های مختلف اعمال شود و می تواند لیست کلمات را به طور قابل توجهی بهتر از دیگران گسترش دهد.

برای بسیاری از موضوعات از قبل فهرست کلمات خوبی وجود دارد. اما برای موضوعات جدید – مانند زمانی که COVID مطرح شد – موضوعات جدید باید ایجاد شود. تا پیش از این، آنها معمولاً با دست در هنگام طوفان فکری با همکاران ایجاد می شدند و از چندین ابزار برای کمک استفاده می کردند. اما تا به حال هیچ راهی برای مقایسه آنها وجود نداشت. Anna Di Natale و تیمش اکنون این امکان را ایجاد کرده اند و همچنین ابزار جدیدی ساخته اند که عملکرد بهتری نسبت به سایرین دارد. این می تواند سنگ بنای مهمی برای بسیاری از پروژه های تحقیقاتی آینده در زمینه های مختلف باشد.



منبع

برای بهبود شرایط، Di Natale اکنون روش جدیدی به نام LEXpander ایجاد کرده است که از الگوریتم های قبلی بهتر عمل می کند. و این حتی به دو زبان مختلف — آلمانی و انگلیسی. علاوه بر این، برای اولین بار، او راهی را ایجاد کرده است که از طریق آن امکان مقایسه ابزارهای مختلف وجود دارد.

برای موضوعات جدیدی مانند COVID مهم است

عملکرد بهبود یافته

دلیل آن این است که این ابزار به طور مستقل از زبان کار می کند. این مبتنی بر یک زبان نیست، بلکه بر اساس یک شبکه به اصطلاح colexification است. این مفهوم زبانی شناخته شده بر روی همنام ها و چندمعنایی ها قرار دارد، کلمات واحدی که دو یا چند معنای متمایز دارند. به عنوان مثال: کلمه یونانی باستان دارو (pharmacon) می تواند به معنای دارو یا سم باشد. دو چیز متفاوت، اما از نظر موضوعی نزدیک. اما موارد دیگری نیز وجود دارند که رابطه خویشاوندی را پیشنهاد نمی کنند — مانند “بانک” به عنوان یک موسسه مالی یا زمین در کنار رودخانه.

این استقلال از خود زبان به LEXpander اجازه می دهد تا در زبان های مختلف به نتایج بهتری دست یابد. “روش های زیادی برای انگلیسی توسعه داده شده است. آنها بسیار خوب و سریع کار می کنند و همه از آنها استفاده می کنند. تلاش برای اعمال آنها در زبان های دیگر کار می کند، اما نه به آن خوبی که اگر شما شروع به توسعه روشی برای آلمانی یا ایتالیایی کرده باشید.” دی ناتال توضیح می دهد.

در مقایسه با چهار الگوریتم دیگر برای گسترش فهرست کلمات (WordNet، Empath 2.0، FastText و GloVe)، LEXpander به طور قابل توجهی بهتر عمل کرد، به خصوص در زبان آلمانی. به عنوان مثال، محققان دریافتند که LEXpander 43٪ از کلمات را درست هنگام گسترش فهرست کلمات انگلیسی برای معنای مثبت حدس می‌زند. یک مدل بسیار محبوب، FastText، در مقایسه، تنها در 28٪ مواقع درست است.

مشکلی که خیلی ها را نگران می کند

Matthew Newman

Matthew Newman Matthew has over 15 years of experience in database management and software development, with a strong focus on full-stack web applications. He specializes in Django and Vue.js with expertise deploying to both server and serverless environments on AWS. He also works with relational databases and large datasets
[ Back To Top ]