УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта

Разработка современной системы распознавания русскоязычной телефонной речи


Автор(ы): Обухов Д.С.
Название статьи:  Разработка современной системы распознавания русскоязычной телефонной речи
Выпуск: 89
Год: 2021
Библиография: Обухов Д.С. Разработка современной системы распознавания русскоязычной телефонной речи // Управление большими системами. Выпуск 89. М.: ИПУ РАН, 2021. С.106-122. DOI: https://doi.org/10.25728/ubs.2021.89.4
Дата опубликования: 31.01.2021
Ключевые слова: распознавание речи, русскоязычная речь, акустическая модель, языковая модель, аугментация звука, вектор характеристик спикера
Аннотация: Описывается система, разработанная для распознавания русскоязычной речи. Мы фокусируемся на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 кГц, полученный в условиях с повышенными шумами. Дополнительно для обучения используются данные из видео хостинга YouTube. Рассматривается ряд акустических моделей и техники построения фонемного словаря и языковой модели. Кроме того, приводятся результаты экспериментов по влиянию информации о спикере. Также показывается, что применение таких техник аугментации, как реверберация, изменение скорости и громкости сигнала, маскирование частотных и временных характеристик существенно повышают качество распознавания. На отложенном для тестирования наборе данных телефонии достигнута ошибка обучения на словах 24.21.


Author(s): Obukhov D.
Article title: Speech recognition system for russian-language telephone speech
Issue: 89
Year: 2021
Keywords: speech recognition, russian-language speech, acoustic model, language model, speech augmentation, speaker embedding
Abstract: We describe a system designed to recognize Russian-language speech. Our focus is on the domain of telephone conversations, when a single-channel noisy audio signal with a sample rate of 8 kHz is received at the input. Additionally, data from YouTube video hosting is used for training. We consider a number of acoustic models and techniques for building a lexicon and language model. In addition, we conduct experiments on the influence of speaker information. It is also shown that the use of augmentation techniques such as reverb, changing the speed and volume of a signal, masking frequency and time characteristics significantly increase the quality of recognition. We achieve word error rate 24.21 on our validation dataset.


В формате PDF
Обсудить статью в Интернет-конференции по проблемам управления

Просмотров: 1837; загрузок: 3138, за месяц: 20.

Назад

ИПУ РАН © 2007. Все права защищены