عنوان انگلیسی: Random Sample Partition: A Distributed Data Model for Big Data Analysis
سال نشر: ۲۰۱۹
نویسنده: Salman Salloum,Joshua Zhexue Huang,Yulin He
تعداد صفحه فارسی: ۲۴ – تعداد صفحه انگلیسی: ۹
دانشگاه: National Engineering Laboratory for Big Data System Computing Technology, Shenzhen University, Shenzhen, China Big Data Institute, College of Computer Science and Software Engineering, Shenzhen University, Shenzhen, China
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس
چکیده
با افزایش حجم دادهها، استراتژیهای جایگزین برای تقسیم دادههای بزرگ به بلوکهای اطلاعات سازگار آماری مورد نیاز هستند که میتوانند مستقیما به عنوان نمونههای نماینده کل مجموعه داده در تحلیل دادههای بزرگ مورد استفاده قرار گیرند. در این مقاله، ما مدل داده توزیعی تصادفی (RSP)را برای نشان دادن یک مجموعه داده بزرگ به عنوان مجموعهای از بلوکهای داده گسسته، که RSP نامیده می شود، پیشنهاد میکنیم. هر بلوک RSP یک توزیع احتمال مشابه با کل مجموعه داده دارد. از بلوکهای RSP می توان برای تخمین ویژگیهای آماری دادهها و ساخت مدلهای پیشبینی بدون محاسبه کل مجموعه دادهها استفاده کرد. ما مفاهیم مدل RSP را در نمونهبرداری از دادههای بزرگ نشان میدهیم و یک روش جدید برای تحلیل دادههای بزرگ معرفی میکنیم که میتواند برای سناریوهای مختلف در صنعت اعمال شود. این روش به طور قابلتوجهی بار محاسباتی دادههای بزرگ را کاهش داده و بهرهوری دانشمندان داده را افزایش میدهد.
Abstract
true
امتیاز شما: