skip to Main Content

انتخاب ویژگی متن با طرح وزن مقاوم و کاهش ابعاد پویا به دسته‌بندی اسناد متنی ​

عنوان انگلیسی: Text feature selection with a robust weight scheme
سال نشر: ۲۰۱۷
نویسنده: Laith Mohammad Abualigah,Ahamad Tajudin Khader,Mohammed Azmi Al-Betar,Osama Ahmad Alomari
تعداد صفحه فارسی: ۱۸ – تعداد صفحه انگلیسی: ۳۸
دانشگاه: Department of Information Technology, Al-Huson University College, Al-Balqa Applied University, P.O. Box 50, Al-Huson, Irbid, Jordan,School of Computer Sciences, Universiti Sains Malaysia, 11800 Pinang, Malaysia
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: اقتصادی

چکیده

این مقاله سه الگوریتم انتخاب ویژگی را با طرح وزن مشخصه و کاهش ابعاد پویا برای مساله خوشه‌بندی سند متنی پیشنهاد می‌کند. خوشه‌بندی سند متنی یک روند جدید در استخراج متن است. در این فرآیند , با استفاده از تابع ارزیابی درست , اسناد متنی به چند خوشه منسجم تفکیک می‌شوند که معمولا به بسامد جمله بستگی دارد . ویژگی های اطلاع رسانی در هر سند با استفاده از روش انتخاب ویژگی برگزیده می‌شوند. الگوریتم ژنتیک (GA)، الگوریتم جستجوی هارمونی (HS)، و الگوریتم بهینه‌سازی انبوه ذرات (PSO)موفق‌ترین روش انتخاب ویژگی هستند که با استفاده از یک طرح وزن جدید، یعنی وزن مشخصه طول (LFW)ایجاد می‌شوند، که به فراوانی و ظاهر ویژگی‌ها در سایر اسناد بستگی دارد. روش کاهش بعد دینامیکی جدید (DDR)نیز برای کاهش تعداد ویژگی‌ها مورد استفاده در خوشه‌بندی و در نتیجه بهبود عملکرد الگوریتم ها ارایه شده‌است. در نهایت، k – میانگین، که یک روش خوشه‌بندی متداول است، برای دسته‌بندی مجموعه اسناد متنی براساس اصطلاحات (یا ویژگی‌های)بدست‌آمده از طریق کاهش دینامیک استفاده می‌شود. هفت مجموعه داده متنی از اندازه‌های مختلف و پیچیدگی‌های موجود ارزی

Abstract

This paper proposes three feature selection algorithms with feature weight scheme and dynamic dimension reduction for the text document clustering problem. Text document clustering is a new trend in text mining; in this process, text documents are separated into several coherent clusters according to carefully selected informative features by using proper evaluation function, which usually depends on term frequency. Informative features in each document are selected using feature selection methods. Genetic algorithm (GA), harmony search (HS) algorithm, and particle swarm optimization (PSO) algorithm are the most successful feature selection methods established using a novel weighting scheme, namely, length feature weight (LFW), which depends on term frequency and appearance of features in other documents. A new dynamic dimension reduction (DDR) method is also provided to reduce the number of features used in clustering and thus improve the performance of the algorithms. Finally, k-mean
امتیاز شما:
(No Ratings Yet)
Back To Top