skip to Main Content

​​​​​​​​الگوی توزین عبارت مشتق شده از یک مدل احتمالاتی برای  طبقه‌بندی متن

عنوان انگلیسی: A probabilistic model derived term weighting schem
سال نشر: ۲۰۱۸
نویسنده: Guozhong Feng,Shaoting Li,Tieli Sun,Bangzuo Zhang
تعداد صفحه فارسی: ۹ – تعداد صفحه انگلیسی: ۷
دانشگاه: Key Laboratory of Intelligent Information Processing of Jilin Universities, School of Computer Science and Information Technology, Northeast Normal University, Changchun 130117, China -Key Laboratory for Applied Statistics of MOE, School of Mathematics and Statistics, Northeast Normal University, Changchun 130024, China – Institute of Computational Biology, Northeast Normal University, Changchun 130117, China – School of Statistics, Dongbei University of Finance and Economics, Dalian 116025, Chi
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: اقتصادی

چکیده

توزین عبارت به عنوان یک استراتژی ارائه متن شناخته می‌شود تا ارزش مناسبِ هر عبارت برای بهبود عملکرد طبقه‌بندی متن در کارِ تبدیل محتوای اسناد متنی به یک بردار در فضای خالی مشخص شود. با استفاده از اطلاعات مربوط به عضویت مدارک آموزشی در طبقه بندی های از پیش تعیین‌شده به طور طبیعی از روش های توزین نظارت شده انتظار می‌رود که نتایج بهتری نسبت به روش‌های بدون نظارت فراهم آورند.در این مقاله، یک طرح توزین جدید از طریق یک تابع امتیاز انطباق مبتنی بر یک مدل احتمالاتی پیشنهاد شده‌است. ما یک متغیر نهفته را معرفی می‌کنیم تا نشان دهیم که آیا یک اصطلاح حاوی اطلاعات دسته‌بندی متنی است یا نه، ارجحیت های درهم آمیخته را مشخص کرده و ازدر هم آمیختگی با انتگرال گرفتن شاخص نهفته و پارامترها، بهره‌برداری کنیم. سپس عبارت‌های غیر تبعیضی می‌تواند وزن‌های نزدیک به صفر باشد. نتایج تجربی با استفاده از طبقه‌بندی کننده‌های kNN و SVM، کارایی روش پیشنهادی را در مجموعه داده‌های متنی کوچک و بزرگ نشان می‌دهند. ​

Abstract

Term weighting is known as a text presentation strategy to assign appropriate value to each term to improve the performance of text classification in the task of transforming the content of textual document into a vector in the term space. Supervised weighting methods using the information on the membership of training documents in predefined classes are naturally expected to provide better results than the unsupervised ones. In this paper, a new weighting scheme is proposed via a matching score function based on a probabilistic model. We introduce a latent variable to indicate whether a term contains text classification information or not, specify conjugate priors and exploit the conjugacy by integrating out the latent indicator and the parameters. Then the non-discriminating terms can be assigned weights close to 0. Experimental results using kNN and SVM classifiers illustrate the effectiveness of the proposed approach on both small and large text data sets.
امتیاز شما:
(No Ratings Yet)
Back To Top