عنوان انگلیسی: Deep neural networks based binary classification for single channel speaker independent multi-talker speech separation
سال نشر: ۲۰۲۰
نویسنده: Nasir Saleem,Muhammad Irfan Khattak
تعداد صفحه فارسی: ۲۱ – تعداد صفحه انگلیسی: ۱۳
دانشگاه: Department of Electrical Engineering, University of Engineering and Technology (UET), Peshawar-25000, KPK, Pakistan
نشریه: Process Safety and Environmental Protection
کیفیت ترجمه: ترجمه پلاس
چکیده
جداسازی گفتار وظیفه مهمی در جداسازی گفتار هدف از سیگنالهای مختلط است. جداسازی گفتار چند-گوینده مستقل از گوینده به دلیل غیرقابلپیشبینی بودن هدف و تداخل گفتار در مخلوط هدف – تداخل، کاری چالش برانگیز است. به طور همزمان، جداسازی گفتار به عنوان یک مشکل پردازش سیگنال مورد استفاده قرار میگیرد، اما اخیرا به عنوان یک مساله یادگیری عمیق فرمولبندی میشود و الگوهای متمایز گفتار از دادههای آموزشی یاد گرفته میشوند. در این مقاله , ما ماسک دودویی ایدهآل ( IBM ) را به عنوان یک آموزش – هدف طبقهبندی دودویی نظارت شده با استفاده از شبکههای عصبی عمیق کاملا متصل ( DNN ) برای تفکیک گفتار چند-گوینده مستقل از گوینده تک کاناله در نظر میگیریم. آموزش DNN ها برای تخمین آموزش – هدف IBM استفاده میشود. خطای میانگین مربع (MSE) به عنوان تابع هزینه هدف استفاده میشود. روشهای تنظیم پس انتشار استاندارد و مونت کارلو برای تعمیم بهتر و بیش برازش در طول آموزش استفاده میشوند. آموزش – هدف تخمین زدهشده برای به دست آوردن گفتار هدف مجزا به مخلوطها اعمال میشود. ما مساله هموارسازی بیش از حد را مورد توجه قرار دادیم
Abstract
Highlights•Examined complex theoretical detail of deep learning and DNN-based supervised speaker-independent multi-talker speech separation system is designed.•A layer-wise training strategy for speech separation has been proposed by using Monte-Carlo Dropout Regularization.•Proposed different learning models: DNNMC: with Monte-Carlo Dropout Regularization, DNN SVE: with Spectral Variance Equalization and DNN MC-SVE: with Monte-Carlo Dropout Regularization and Spectral Variance Equalization.•The over-smoothing problem is addressed and spectral variance equalization is performed to obtain good quality and intelligible speech.AbstractSpeech separation is an important task of separating a target speech from the mixture signals. Speaker-independent multi-talker speech separation is a challenging task due to unpredictability of the target and interfering speech in the target-interference mixtures. Conventionally, speech separation is used as a signal processing problem, but recently it is f
امتیاز شما: