skip to Main Content

انتخاب ویژگی برای مدل‌های طبقه‌بندی از طریق بهینه‌سازی دوسطحی

عنوان انگلیسی: Feature selection for classification models via bilevel optimization
سال نشر: ۲۰۱۹
نویسنده: Joseph Agor,Osman Y. Özaltın
تعداد صفحه فارسی: ۲۷ – تعداد صفحه انگلیسی: ۱۳
دانشگاه: Operations Research, North Carolina State University, Raleigh, NC 27606, United States b Edward P. Fitts Department of Industrial and Systems Engineering, North Carolina State University, Raleigh, NC 27695, United States
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس

چکیده

طبقه‌بندی مدل‌های طبقه‌بندی نقاط داده را به گروه‌های از پیش تعیین‌شده براساس ویژگی‌های آن‌ها اختصاص می‌دهد. (Lee and Wu, 2009) این مدل‌ها معمولا از طریق اعتبارسنجی متقابل برای جلوگیری از پوشش بیش از حد ساخته می‌شوند. ساده‌ترین اعتبار سنجی، یعنی روش احتمالی، داده‌ها را به دو مجموعه تقسیم می‌کند: مجموعه آموزشی و اعتبار سنجی. این مدل طبقه‌بندی براساس مجموعه آموزشی ساخته می‌شود و سپس برای نقاط داده در مجموعه اعتبارسنجی بکار می‌رود. ویژگی‌های مدل برای دستیابی به عملکرد طبقه‌بندی نمونه کافی در مجموعه اعتبارسنجی انتخاب می‌شوند. دو رویکرد اصلی برای انتخاب ویژگی وجود دارد. اگر انتخاب ویژگی مستقل از الگوریتم یادگیری که برای ساخت طبقه بند استفاده می‌شود، انجام شود، این تکنیک برای دنبال کردن یک روش فیلتر گفته می‌شود. در غیر این صورت گفته می‌شود که از یک رویکرد پوششی پیروی می‌کند. (Kohavi و John, 1997) در حالیکه روش فیلتر معمولا از نظر محاسباتی کارآمدتر از روش پوشش است، اشکال عمده آن این است که انتخاب بهینه ویژگی‌ها ممکن است مستقل از سوگیری‌های شناختی و نمایشی الگوریتم یادگیری نباشد. از طرف دیگر، ر

Abstract

Selecting model features that would ensure adequate out-of-sample classification is difficult in real life applications of classification often because there is a large number of candidate features. We propose a bilevel programming approach to feature selection problem for classification and develop a novel genetic algorithm as a solution approach. We implement the proposed framework in three different case studies where we classify influenza strains based on antigenic variety, distinguish between good and bad quality colposcopy images, and identify splice junction sites in genetic sequences. As a benchmark for the proposed genetic algorithm, we use a derivative-free optimization method to solve the bilevel feature selection problems in these case studies. The computational experiments show that the proposed bilevel framework improves the overall classification performance while selecting the most important features for the model.
امتیاز شما:
(No Ratings Yet)
Back To Top