skip to Main Content

تجزیه و تحلیل داده های عظیم بر روی آپاچی اسپارک

عنوان انگلیسی: Big data analytics on Apache Spark
سال نشر: ۲۰۱۶
نویسنده: Salman Salloum,Ruslan Dautov,Xiaojun Chen,Patrick Xiaogang Peng,Joshua Zhexue Huang
تعداد صفحه فارسی: ۵۲ – تعداد صفحه انگلیسی: ۲۰
دانشگاه: College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, Guangdong, China
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس

چکیده

آپاچی اسپارک، در واقع به عنوان چارچوبی برای تجزیه و تحلیل داده‌های عظیم با استفاده از مدل برنامه‌نویسی حافظه میانی و کتابخانه‌های سطح بالا برای یادگیری ماشین مقیاس پذیر، تحلیل نموداری، جاری سازی و پردازش داده ساختار یافته، ظهور کرده‌ است. آپاچی اسپارک ، یک چارچوب محاسباتی خوشه‌ای چند منظوره با API های یکپارچه زبان در اسکالا، جاوا، پایتون و R است. به عنوان یک پروژه منبع باز به سرعت در حال رشد، با تعداد رو به افزایشی از مشارکت کنندگان در دانشگاه و صنعت، برای محققان دشوار است که بدنه کامل توسعه و تحقیق آپاچی اسپارک را درک کنند، به خصوص آن‌هایی که در این زمینه مبتدی هستند. در این مقاله، ما یک بررسی فنی در مورد تجزیه و تحلیل داده های بزرگ با استفاده از آپاچی اسپارک ارائه می کنیم. این بررسی بر اجزای کلیدی، انتزاعی و ویژگی های آپاچی اسپارک تمرکز دارد. به طور خاص، این بررسی نشان می دهد که آپاچی اسپارک برای طراحی و اجرای الگوریتم های خطوط لوله و داده های عظیم و برای یادگیری ماشین، تجزیه و تحلیل گراف و پردازش جریان است. علاوه بر این، ما برخی جهات تحقیق و توسعه را برای تجزیه و تحلیل داده‌های عظیم

Abstract

Apache Spark has emerged as the de facto framework for big data analytics with its advanced in-memory programming model and upper-level libraries for scalable machine learning, graph analysis, streaming and structured data processing. It is a general-purpose cluster computing framework with language-integrated APIs in Scala, Java, Python and R. As a rapidly evolving open source project, with an increasing number of contributors from both academia and industry, it is difficult for researchers to comprehend the full body of development and research behind Apache Spark, especially those who are beginners in this area. In this paper, we present a technical review on big data analytics using Apache Spark. This review focuses on the key components, abstractions and features of Apache Spark. More specifically, it shows what Apache Spark has for designing and implementing big data algorithms and pipelines for machine learning, graph analysis and stream processing. In addition, we highlight so
امتیاز شما:
(No Ratings Yet)
Back To Top