skip to Main Content

یادگیری زبان برای خواندن کلمات با مشاهده تصویری {ویدئویی}

عنوان انگلیسی: Learning to lip read words by watching videos
سال نشر: ۲۰۱۸
نویسنده: Joon Son Chung,Andrew Zisserman
تعداد صفحه فارسی: ۲۲ – تعداد صفحه انگلیسی: ۱۰
دانشگاه: Visual Geometry Group, Department of Engineering Science, University of Oxford, United Kingdom
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس

چکیده

هدف ما این است که کلمات را با صورت حرف زدن تشخیص دهیم، تنها ویدئو را نشان دهیم، اما صدا را نه. کاره‌ای موجود در این منطقه بر تلاش برای تشخیص تعداد کمی از گفته‌های در محیط‌های کنترل‌شده متمرکز شده‌اند (‏به عنوان مثال ارقام و الفبا)‏، تا حدی به دلیل کمبود داده‌های مناسب. ما سه سهم جدید می‌سازیم: اول، ما یک خط لوله برای جمع‌آوری اطلاعات خودکار از برنامه‌های تلویزیونی ایجاد می‌کنیم. با این کار ما یک مجموعه داده را با بیش از یک میلیون نمونه کلمه ایجاد کردیم، که با بیش از هزار نفر مختلف صحبت کردیم؛ دوم اینکه ما یک شبکه عصبی دو جریانی را توسعه می‌دهیم که یک تعبیه مشترک بین صوت و حرکات دهان از داده‌های بدون برچسب را یاد می‌گیرد. ما این شبکه را به وظایف همگام سازی صوتی – ویدئویی و تشخیص گوینده فعال تعمیم می‌دهیم. سوم اینکه، ما شبکه‌های محرمانه و بازگشتی را آموزش می‌دهیم که قادر به یادگیری و شناسایی صدها کلمه از این مجموعه داده بزرگ هستند. ما در لب‌خوانی و در تشخیص گویشور، نتایجی را که فراتر از وضعیت کنونی مجموعه داده‌های محک عمومی هستند را نشان می‌دهیم.

Abstract

Highlights•Fully automated collection of a large-scale lip reading dataset from TV broadcasts.•Two-stream CNN for lip synchronization and active speaker detection.•Deep learning architectures to lip read spoken words.•State-of-the-art on benchmark datasets for lip reading and speaker detection.AbstractOur aim is to recognise the words being spoken by a talking face, given only the video but not the audio. Existing works in this area have focussed on trying to recognise a small number of utterances in controlled environments (e.g. digits and alphabets), partially due to the shortage of suitable datasets.We make three novel contributions: first, we develop a pipeline for fully automated data collection from TV broadcasts. With this we have generated a dataset with over a million word instances, spoken by over a thousand different people; second, we develop a two-stream convolutional neural network that learns a joint embedding between the sound and the mouth motions from unlabelled data.
امتیاز شما:
(No Ratings Yet)
Back To Top