عنوان انگلیسی: Feature evaluation for web crawler detection with data mining techniques
سال نشر: ۲۰۱۲
نویسنده: Dusan Stevanovic,Aijun An,Natalija Vlajic
تعداد صفحه فارسی: ۳۰ – تعداد صفحه انگلیسی: ۱۱
دانشگاه: Department of Computer Science and Engineering, York University, 4700 Keele St., Toronto, Ontario, Canada M3J 1P3
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس
چکیده
رد توزیعی سرویس (DDoS) یکی از آسیب¬زننده¬ترین حملات برای امنیت امروز اینترنت است. اخیراً روبات-های بد وب برای اجرای حملات DDoS خودکار بر روی وب¬سایت¬های WWW مورد استفاده قرار گرفته¬اند. در این مطالعه تاثیر بکارگیری هفت الگوریتم طبقه¬بندی داده¬کاوی معتبر را بر لاگ¬های دسترسی وب سرور استاتیک برای اهداف زیر بررسی می¬کنیم: ۱) طبقه¬بندی نشست¬های کاربر متعلق به روبات خودکار وب یا ویزیتورهای انسانی و ۲) شناسایی اینکه کدام نشست روبات¬های خودکار وب رفتار "بدی" از خود نشان داده و بطور بالقوه شرکت¬کننده در حمله¬ی DDoS هستند. انجام طبقه¬بندی از جهت صحت، یادآوری، دقت و نمره-ی F1 ارزیابی شده است. ۷ تا از ۹ ویژگی¬های بردار (یعنی نشست وب) بکار گرفته شده در کار ما برگرفته از مطالعات قبلی پیرامون طبقه¬بندی نشست¬های کاربر متعلق به روبات¬های وب است. با این وجود دو ویژگی جدید نشست وب را معرفی می¬کنیم: نسبیت درخواست توالی پی¬د¬رپی و انحراف معیار از عمق درخواست صفحه. تاثیر ویژگی¬های جدید به لحاظ افزایش اطلاعات و متریک¬های نسبیت افزایش مورد ارزیابی قرار گرفته است. نتایج تجربی، پتانسیل ویژگی¬های جدید برای توس
Abstract
Distributed Denial of Service (DDoS) is one of the most damaging attacks on the Internet security today. Recently, malicious web crawlers have been used to execute automated DDoS attacks on web sites across the WWW. In this study we examine the effect of applying seven well-established data mining classification algorithms on static web server access logs in order to: (1) classify user sessions as belonging to either automated web crawlers or human visitors and (2) identify which of the automated web crawlers sessions exhibit ‘malicious’ behavior and are potentially participants in a DDoS attack. The classification performance is evaluated in terms of classification accuracy, recall, precision and F1 score. Seven out of nine vector (i.e. web-session) features employed in our work are borrowed from earlier studies on classification of user sessions as belonging to web crawlers. However, we also introduce two novel web-session features: the consecutive sequential request ratio and standa
امتیاز شما: