عنوان انگلیسی: Text feature selection with a robust weight scheme
سال نشر: ۲۰۱۷
نویسنده: Laith Mohammad Abualigah,Ahamad Tajudin Khader,Mohammed Azmi Al-Betar,Osama Ahmad Alomari
تعداد صفحه فارسی: ۱۸ – تعداد صفحه انگلیسی: ۳۸
دانشگاه: Department of Information Technology, Al-Huson University College, Al-Balqa Applied University, P.O. Box 50, Al-Huson, Irbid, Jordan,School of Computer Sciences, Universiti Sains Malaysia, 11800 Pinang, Malaysia
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: اقتصادی
چکیده
این مقاله سه الگوریتم انتخاب ویژگی را با طرح وزن مشخصه و کاهش ابعاد پویا برای مساله خوشهبندی سند متنی پیشنهاد میکند. خوشهبندی سند متنی یک روند جدید در استخراج متن است. در این فرآیند , با استفاده از تابع ارزیابی درست , اسناد متنی به چند خوشه منسجم تفکیک میشوند که معمولا به بسامد جمله بستگی دارد . ویژگی های اطلاع رسانی در هر سند با استفاده از روش انتخاب ویژگی برگزیده میشوند. الگوریتم ژنتیک (GA)، الگوریتم جستجوی هارمونی (HS)، و الگوریتم بهینهسازی انبوه ذرات (PSO)موفقترین روش انتخاب ویژگی هستند که با استفاده از یک طرح وزن جدید، یعنی وزن مشخصه طول (LFW)ایجاد میشوند، که به فراوانی و ظاهر ویژگیها در سایر اسناد بستگی دارد. روش کاهش بعد دینامیکی جدید (DDR)نیز برای کاهش تعداد ویژگیها مورد استفاده در خوشهبندی و در نتیجه بهبود عملکرد الگوریتم ها ارایه شدهاست. در نهایت، k – میانگین، که یک روش خوشهبندی متداول است، برای دستهبندی مجموعه اسناد متنی براساس اصطلاحات (یا ویژگیهای)بدستآمده از طریق کاهش دینامیک استفاده میشود. هفت مجموعه داده متنی از اندازههای مختلف و پیچیدگیهای موجود ارزی
Abstract
This paper proposes three feature selection algorithms with feature weight scheme and dynamic dimension reduction for the text document clustering problem. Text document clustering is a new trend in text mining; in this process, text documents are separated into several coherent clusters according to carefully selected informative features by using proper evaluation function, which usually depends on term frequency. Informative features in each document are selected using feature selection methods. Genetic algorithm (GA), harmony search (HS) algorithm, and particle swarm optimization (PSO) algorithm are the most successful feature selection methods established using a novel weighting scheme, namely, length feature weight (LFW), which depends on term frequency and appearance of features in other documents. A new dynamic dimension reduction (DDR) method is also provided to reduce the number of features used in clustering and thus improve the performance of the algorithms. Finally, k-mean
امتیاز شما: