عنوان انگلیسی: Clustering-based k-nearest neighbor classification for large-scale data with neural codes representation
سال نشر: ۲۰۱۸
نویسنده: Antonio-Javier Gallego,Jorge Calvo-Zaragoza,Jose J. Valero-Mas,Juan R. Rico-Juan
تعداد صفحه فارسی: ۲۶ – تعداد صفحه انگلیسی: ۱۳
دانشگاه: Departamento de Lenguajes y Sistemas Informáticos, Universidad de Alicante, Carretera San Vicente del Raspeig s/n, Alicante 03690, Spain
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس
چکیده
در حالی که ایستادن به عنوان یکی از موفقترین و موفقترین الگوریتم های طبقهبندی نظارت شده، طبقهبندی کننده k – نزدیکترین همسایگی (kNN)عموما بازده ضعیفی را به دلیل یک روش مبتنی بر نمونه نشان میدهد. در این حالت، جستجوی شباهت تقریبی به عنوان یک جایگزین ممکن برای بهبود این مسایل بهرهوری به قیمت کاهش عملکرد طبقهبندی کننده میباشد. در این مقاله ما به عنوان نقطه آغازین یک استراتژی تاس مبتنی بر خوشهبندی در نظر میگیریم. سپس عملکرد آن را با حل مسایل مربوط به نمونههای نزدیک به مرزهای خوشه با بزرگ کردن اندازه آنها و در نظر گرفتن استفاده از شبکههای عصبی عمیق برای یادگیری یک نمایش مناسب برای کار طبقهبندی در موضوع، بهبود میدهیم. نتایج با استفاده از مجموعهای از هشت مجموعه داده مختلف نشان میدهد که استفاده ترکیبی از این دو استراتژی مستلزم بهبود قابلتوجه در عملکرد دقت، با کاهش قابلتوجه در تعداد فواصل مورد نیاز برای طبقهبندی یک نمونه در مقایسه با قانون اساسی kNN است.
Abstract
While standing as one of the most widely considered and successful supervised classification algorithms, the k -nearest Neighbor ( k NN) classifier generally depicts a poor efficiency due to being an instance-based method. In this sense, Approximated Similarity Search (ASS) stands as a possible alternative to improve those efficiency issues at the expense of typically lowering the performance of the classifier. In this paper we take as initial point an ASS strategy based on clustering. We then improve its performance by solving issues related to instances located close to the cluster boundaries by enlarging their size and considering the use of Deep Neural Networks for learning a suitable representation for the classification task at issue. Results using a collection of eight different datasets show that the combined use of these two strategies entails a significant improvement in the accuracy performance, with a considerable reduction in the number of distances needed to classify a
امتیاز شما: