skip to Main Content

افراز نمونه تصادفی: یک مدل داده توزیع شده برای تحلیل داده‌های بزرگ

عنوان انگلیسی: Random Sample Partition: A Distributed Data Model for Big Data Analysis
سال نشر: ۲۰۱۹
نویسنده: Salman Salloum,Joshua Zhexue Huang,Yulin He
تعداد صفحه فارسی: ۲۴ – تعداد صفحه انگلیسی: ۹
دانشگاه: National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, Shenzhen, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, China
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس

چکیده

با افزایش حجم داده‌ها، استراتژی‌های جایگزین برای تقسیم داده‌های بزرگ به بلوک‌های اطلاعات سازگار آماری مورد نیاز هستند که می‌توانند مستقیما به عنوان نمونه‌های نماینده کل مجموعه داده در تحلیل داده‌های بزرگ مورد استفاده قرار گیرند. در این مقاله، ما مدل داده توزیعی تصادفی (‏RSP)‏را برای نشان دادن یک مجموعه داده بزرگ به عنوان مجموعه‌ای از بلوک‌های داده گسسته، که RSP نامیده می شود، پیشنهاد می‌کنیم. هر بلوک RSP یک توزیع احتمال مشابه با کل مجموعه داده دارد. از بلوک‌های RSP می توان برای تخمین ویژگی‌های آماری داده‌ها و ساخت مدل‌های پیش‌بینی بدون محاسبه کل مجموعه داده‌ها استفاده کرد. ما مفاهیم مدل RSP را در نمونه‌برداری از داده‌های بزرگ نشان می‌دهیم و یک روش جدید برای تحلیل داده‌های بزرگ معرفی می‌کنیم که می‌تواند برای سناریوهای مختلف در صنعت اعمال شود. این روش به طور قابل‌توجهی بار محاسباتی داده‌های بزرگ را کاهش داده و بهره‌وری دانشمندان داده را افزایش می‌دهد.

Abstract

true
امتیاز شما:
(No Ratings Yet)
Back To Top