عنوان انگلیسی: G-MS2F: GoogLeNet based multi-stage feature fusion of deep CNN for scene recognition
سال نشر: ۲۰۱۷
نویسنده: Pengjie Tang,Hanli Wang,Sam Kwong
تعداد صفحه فارسی: ۲۲ – تعداد صفحه انگلیسی: ۱۰
دانشگاه: Department of Computer Science & Technology, Tongji University, Shanghai 201804, PR China b Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University, Shanghai 200092, PR China c College of Math & Physics, Jinggangshan University, Ji’an 343009, PR China d Department of Computer Science, City University of Hong Kong, Hong Kong, PR China
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: اقتصادی
چکیده
بازشناسی (تشخیص) صحنه نقش مهمی در کار بازیابی اطلاعات بصری ، تقسیم بندی و درک تصویر / فیلم دارد. رویکردهای سنتی برای بازشناسی صحنه معمولاً از ویژگی های دستی استفاده می کند و از نقص توانایی نشان دادن ضعیف برخوردار است که می توان با به کارگیری ویژگی های شبکه عصبی کانولوشن (هم گشتی ) عمیق (CNN) که حاوی اطلاعات معنایی و ساختاری بیشتری است بهبود یافته و در نتیجه توانایی تفکیک پذیری بیشتری را از طریق تبدیل های چند گانه خطی و غیر خطی دارد. با این وجود ، هنگامی که فقط ویژگی های خروجی نهایی که تعداد مشخصی از تبدیل ها را پشت سر گذشته است ، می توانند مقدار کمی از اطلاعات دقیق را از بین ببرند ، برای بازشناسی صحنه استفاده می شود. از ویژگی هایی که از لایه های میانی ایجاد می شود ، کاملاً استفاده نشده است. در این کار از مدل گوگل نت استفاده شده و به سه قسمت از لایه ها از پایین به بالا تقسیم می شود. ویژگی های خروجی از هر سه بخش برای بازشناسی صحنه استفاده می شود ، که منجر به تلفیق ویژگی های چند مرحله ای مبتنی بر گوگل نت (G-MS2F) می شود. علاوه بر این ، قاعده ضرب برای تولید تصمیم نهایی برای بازشناسی صحن
Abstract
Scene recognition plays an important role in the task of visual information retrieval, segmentation and image/video understanding. Traditional approaches for scene recognition usually utilize handcrafted features and have the drawbacks of poor representation ability, which can be improved by employing deep convolutional neural network (CNN) features that contain more semantic and structure information and thus possess more discriminative ability via multiple linear and non-linear transformations. However, an amount of detailed information may be lost when only the final output features which have gone through a certain number of transformations are applied to scene recognition. The features which are generated from the intermediate layers are not fully utilized. In this work, the GoogLeNet model is employed and divided into three parts of layers from bottom to top. The output features from each of the three parts are applied for scene recognition, which leads to the proposed GoogLeNet
امتیاز شما: