skip to Main Content

خوشه‌بندی انتخاب گروهی برای داده‌های رسته ای مبتنی بر شاخص‌های اعتبار داخلی

عنوان انگلیسی: Clustering ensemble selection for categorical data based on internal validity indices
سال نشر: ۲۰۱۷
نویسنده: Xingwang Zhao,Jiye Liang,Chuangyin Dang
تعداد صفحه فارسی: ۲۰ – تعداد صفحه انگلیسی: ۳۷
دانشگاه: Department of Systems Engineering and Engineering Management, City University of Hong Kong, Hong Kong,Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education, School of Computer and Information Technology, Shanxi University, Taiyuan, 030006, Shanxi, China
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: اقتصادی

چکیده

خوشه‌بندی انتخاب گروهی یک تکنیک موثر برای بهبود کیفیت نتایج خوشه‌بندی است.با این حال، روش‌های سنتی معمولا کیفیت و تنوع را براساس برچسب‌های خوشه‌ای خوشه بندی پایه اندازه‌گیری می‌کنند در حالی که اطلاعات داده‌های اصلی را از دست می‌دهند.برای حل این مشکل، یک الگوریتم انتخاب گروهی خوشه بندی جدید برای داده‌های رسته ای ارایه شده‌است.در این الگوریتم، پنج شاخص اعتبار داخلی محبوب و اطلاعات متقابل نرمال شده برای اندازه‌گیری کیفیت و تنوع خوشه بندی های پایه‌ به ترتیب مورد استفاده قرار می‌گیرند.با توجه به معیار کیفیت، پارتیشن با بالاترین مقدار ابتدا برای شرکت در گروه انتخاب می‌شود. سپس، پارتیشن‌های پایه با بالاترین کیفیت خوشه بندی و تنوع با توجه به پارتیشن‌های پایه انتخاب‌شده در تکرارهای قبلی به طور تکراری انتخاب می‌شوند، تا زمانی که اندازه خوشه بندی پایه انتخاب‌شده راضی باشد.کارآیی و استحکام الگوریتم پیشنهادی در مقایسه با مجموعه کامل، گروه انتخاب تصادفی و الگوریتم های انتخاب state-of-threat مورد ارزیابی قرار می‌گیرند.نتایج تجربی مجموعه داده‌های رسته ای واقعی نشان می‌دهد که الگوریتم پیشنهادی با الگو

Abstract

Highlights•Propose a clustering ensemble selection algorithm for categorical data(SIVID).•SIVID measures the quality of base clusterings with internal validity indices.•SIVD measures the diversity of base clusterings with NMI.•Experimental results show the effectiveness and robustness of the proposed algorithm.AbstractClustering ensemble selection is an effective technique for improving the quality of clustering results. However, traditional methods usually measure the quality and diversity based on the cluster labels of base clusterings while missing the information of the original data. To solve this problem, a new clustering ensemble selection algorithm for categorical data is presented. In this algorithm, five popular internal validity indices and the normalized mutual information are utilized to measure the quality and diversity of the base clusterings, respectively. According to the quality measure, the partition with the highest value is firstly selected to participate in the en
امتیاز شما:
(No Ratings Yet)
Back To Top