skip to Main Content

لب خوانی با شبکه های عصبی محرک Hahn

عنوان انگلیسی: Lip reading with Hahn Convolutional Neural Networks
سال نشر: ۲۰۱۹
نویسنده: Abderrahim Mesbah,Aissam Berrahou,Hicham Hammouchi,Hassan Berbia,Hassan Qjidaa,Mohamed Daoudi
تعداد صفحه فارسی: ۱۶ – تعداد صفحه انگلیسی: ۸
دانشگاه: Sidi Mohammed Ben Abdellah University, Fez, Morocco b Mohammed V University, Rabat, Morocco c IMT Lille-Douai, Univ. Lille, CNRS, UMR 9189 CRIStAL, Lille, France
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس

چکیده

بازشناسی گفتار، فرآیند رمزگشایی از حرکات دهان گوینده است. از آن برای افراد مبتلا به اختلال شنوایی استفاده می‌شود تا بیماران مبتلا به سرطان حنجره، افراد مبتلا به فلج طناب‌های صوتی و در محیط پر سر و صدا را درک کنند. هدف ما در این مقاله توسعه یک سیستم بازشناسی گفتار تنها مبتنی بر ویدئو است. برنامه اصلی ما در زمینه پزشکی برای کمک به لارنژکتومی نفر است. برای این منظور، ما از شبکه عصبی Hahn محرمانه (‏HCNN)‏، یک معماری جدید براساس لحظات هان به عنوان لایه اول در معماری شبکه عصبی محرمانه (‏CNN)‏پیشنهاد می‌کنیم. ما نشان می‌دهیم که HCNN به کاهش ابعاد تصاویر ویدیویی کمک می‌کند. مدل HCNN برای دسته‌بندی نامه‌ها، ارقام یا کلمات داده‌شده به عنوان تصاویر ویدیویی آموزش داده می‌شود. ما روش ارائه‌شده را بر روی سه مجموعه داده، AVLetters، OuluVS2 و بی‌بی‌سی LRW ارزیابی کردیم و نشان می‌دهیم که این روش در مقایسه با سایر آثار در نشریات علمی به نتایج قابل‌توجهی دست می‌یابد.
تمامی حقوق برای Elsevier محفوظ است.

Abstract

Lipreading or Visual speech recognition is the process of decoding speech from speaker’s mouth movements. It is used for people with hearing impairment, to understand patients attained with laryngeal cancer, people with vocal cord paralysis and in noisy environment. In this paper we aim to develop a visual-only speech recognition system based only on video. Our main targeted application is in the medical field for the assistance to laryngectomized persons. To that end, we propose Hahn Convolutional Neural Network (HCNN), a novel architecture based on Hahn moments as first layer in the Convolutional Neural Network (CNN) architecture. We show that HCNN helps in reducing the dimensionality of video images, in gaining training time. HCNN model is trained to classify letters, digits or words given as video images. We evaluated the proposed method on three datasets, AVLetters, OuluVS2 and BBC LRW, and we show that it achieves significant results in comparison with other works in the literatu
امتیاز شما:
(No Ratings Yet)
Back To Top