skip to Main Content

شبکه‌های عصبی عمیق مبتنی بر طبقه‌بندی دودویی برای جداسازی گفتار چند-گوینده مستقل از گوینده تک کاناله

عنوان انگلیسی: Deep neural networks based binary classification for single channel speaker independent multi-talker speech separation
سال نشر: ۲۰۲۰
نویسنده: Nasir Saleem,Muhammad Irfan Khattak
تعداد صفحه فارسی: ۲۱ – تعداد صفحه انگلیسی: ۱۳
دانشگاه: Department of Electrical Engineering, University of Engineering and Technology (UET), Peshawar-25000, KPK, Pakistan
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس

چکیده

جداسازی گفتار وظیفه مهمی در جداسازی گفتار هدف از سیگنال‌های مختلط است. جداسازی گفتار چند-گوینده مستقل از گوینده به دلیل غیرقابل‌پیش‌بینی بودن هدف و تداخل گفتار در مخلوط هدف – تداخل، کاری چالش برانگیز است. به طور همزمان، جداسازی گفتار به عنوان یک مشکل پردازش سیگنال مورد استفاده قرار می‌گیرد، اما اخیرا به عنوان یک مساله یادگیری عمیق فرمول‌بندی می‌شود و الگوهای متمایز گفتار از داده‌های آموزشی یاد گرفته می‌شوند. در این مقاله , ما ماسک دودویی ایده‌آل ( IBM )‏ را به عنوان یک آموزش – هدف طبقه‌بندی دودویی نظارت شده با استفاده از شبکه‌های عصبی عمیق کاملا متصل ( DNN )‏ برای تفکیک گفتار چند-گوینده مستقل از گوینده تک کاناله در نظر می‌گیریم. آموزش DNN ها برای تخمین آموزش – هدف IBM استفاده می‌شود. خطای میانگین مربع (MSE)‏ به عنوان تابع هزینه هدف استفاده می‌شود. روش‌های تنظیم پس انتشار استاندارد و مونت کارلو برای تعمیم بهتر و بیش برازش در طول آموزش استفاده می‌شوند. آموزش – هدف تخمین زده‌شده برای به دست آوردن گفتار هدف مجزا به مخلوط‌ها اعمال می‌شود. ما مساله هموارسازی بیش از حد را مورد توجه قرار دادیم

Abstract

Highlights•Examined complex theoretical detail of deep learning and DNN-based supervised speaker-independent multi-talker speech separation system is designed.•A layer-wise training strategy for speech separation has been proposed by using Monte-Carlo Dropout Regularization.•Proposed different learning models: DNNMC: with Monte-Carlo Dropout Regularization, DNN SVE: with Spectral Variance Equalization and DNN MC-SVE: with Monte-Carlo Dropout Regularization and Spectral Variance Equalization.•The over-smoothing problem is addressed and spectral variance equalization is performed to obtain good quality and intelligible speech.AbstractSpeech separation is an important task of separating a target speech from the mixture signals. Speaker-independent multi-talker speech separation is a challenging task due to unpredictability of the target and interfering speech in the target-interference mixtures. Conventionally, speech separation is used as a signal processing problem, but recently it is f
امتیاز شما:
(No Ratings Yet)
Back To Top