عنوان انگلیسی: Apriori Versions Based on MapReduce for Mining Frequent Patterns on Big Data
سال نشر: ۲۰۱۸
نویسنده: Jose Maria Luna,Francisco Padillo,Mykola Pechenizkiy,Sebastian Ventura
تعداد صفحه فارسی: ۱ – تعداد صفحه انگلیسی: ۱۵
دانشگاه: José María Luna Department of Computer Science, University of Jaén, Jaén, Spain-Department of Computer Science and Numerical Analysis, University of Córdoba, Córdoba, Spain
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: اقتصادی
چکیده
استخراج الگوها از مهمترین وظایف استخراج اطلاعات معنیدار و مفید از دادههای خام است. هدف از این زمینه، استخراج مجموعههای آیتم داری است که نشاندهنده هر نوع همگنی و نظم در دادهها هستند. اگر چه الگوریتم های کارآمد بسیاری در این زمینه ایجاد شدهاند، اما علاقه رو به رشد در استخراج دادهها باعث شدهاست تا عملکرد تکنیکهای داده کاوی موجود کاهش یابد. هدف این مقاله ارائه الگوی جدید داده کاوی برای جستجو در دادههای بزرگ است. برای این منظور، مجموعهای از الگوریتم های مبتنی بر چهارچوب MapReduce و پیادهسازی منبع باز Hadoop پیشنهاد شدهاست. اول، دو الگوریتم [ Apriori MapReduce (AprioriMR) و AprioriMR تکراری ] با استراتژی بدون هرس پیشنهاد میشوند، که هر مجموعه آیتم موجود در دادهها را استخراج میکند. دوم، دو الگوریتم (هرس فضای AprioriMR و AprioriMR فوقانی) که فضای جستجو را با استفاده از خاصیت مشهور ضد انحصاری (anti-monotone) هرس میکنند. در نهایت، آخرین الگوریتم (حداکثر AprioriMR) نیز برای نمایشهای فشرده کاوی از الگوهای مکرر پیشنهاد شدهاست. برای تست عملکرد الگوریتم های پیشنهادی، مجموعه متنوعی
Abstract
Pattern mining is one of the most important tasks to extract meaningful and useful information from raw data. This task aims to extract item-sets that represent any type of homogeneity and regularity in data. Although many efficient algorithms have been developed in this regard, the growing interest in data has caused the performance of existing pattern mining techniques to be dropped. The goal of this paper is to propose new efficient pattern mining algorithms to work in big data. To this aim, a series of algorithms based on the MapReduce framework and the Hadoop open-source implementation have been proposed. The proposed algorithms can be divided into three main groups. First, two algorithms [Apriori MapReduce (AprioriMR) and iterative AprioriMR] with no pruning strategy are proposed, which extract any existing itemset in data. Second, two algorithms (space pruning AprioriMR and top AprioriMR) that prune the search space by means of the well-known anti-monotone property are proposed.
امتیاز شما: