عنوان انگلیسی: Learning to lip read words by watching videos
سال نشر: ۲۰۱۸
نویسنده: Joon Son Chung,Andrew Zisserman
تعداد صفحه فارسی: ۲۲ – تعداد صفحه انگلیسی: ۱۰
دانشگاه: Visual Geometry Group, Department of Engineering Science, University of Oxford, United Kingdom
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس
چکیده
هدف ما این است که کلمات را با صورت حرف زدن تشخیص دهیم، تنها ویدئو را نشان دهیم، اما صدا را نه. کارهای موجود در این منطقه بر تلاش برای تشخیص تعداد کمی از گفتههای در محیطهای کنترلشده متمرکز شدهاند (به عنوان مثال ارقام و الفبا)، تا حدی به دلیل کمبود دادههای مناسب. ما سه سهم جدید میسازیم: اول، ما یک خط لوله برای جمعآوری اطلاعات خودکار از برنامههای تلویزیونی ایجاد میکنیم. با این کار ما یک مجموعه داده را با بیش از یک میلیون نمونه کلمه ایجاد کردیم، که با بیش از هزار نفر مختلف صحبت کردیم؛ دوم اینکه ما یک شبکه عصبی دو جریانی را توسعه میدهیم که یک تعبیه مشترک بین صوت و حرکات دهان از دادههای بدون برچسب را یاد میگیرد. ما این شبکه را به وظایف همگام سازی صوتی – ویدئویی و تشخیص گوینده فعال تعمیم میدهیم. سوم اینکه، ما شبکههای محرمانه و بازگشتی را آموزش میدهیم که قادر به یادگیری و شناسایی صدها کلمه از این مجموعه داده بزرگ هستند. ما در لبخوانی و در تشخیص گویشور، نتایجی را که فراتر از وضعیت کنونی مجموعه دادههای محک عمومی هستند را نشان میدهیم.
Abstract
Highlights•Fully automated collection of a large-scale lip reading dataset from TV broadcasts.•Two-stream CNN for lip synchronization and active speaker detection.•Deep learning architectures to lip read spoken words.•State-of-the-art on benchmark datasets for lip reading and speaker detection.AbstractOur aim is to recognise the words being spoken by a talking face, given only the video but not the audio. Existing works in this area have focussed on trying to recognise a small number of utterances in controlled environments (e.g. digits and alphabets), partially due to the shortage of suitable datasets.We make three novel contributions: first, we develop a pipeline for fully automated data collection from TV broadcasts. With this we have generated a dataset with over a million word instances, spoken by over a thousand different people; second, we develop a two-stream convolutional neural network that learns a joint embedding between the sound and the mouth motions from unlabelled data.
امتیاز شما: