Автор: Дмитрий Сергеевич Обухов
Аннотация:
Описывается система, разработанная для распознавания русскоязычной речи. Мы фокусируемся на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 кГц, полученный в условиях с повышенными шумами. Помимо основного домена телефонных разговоров, для обучения используются данные из видеохостинга YouTube. Рассматривается ряд акустических моделей, среди которых наиболее эффективной оказалась архитектура нейронной сети с временной задержкой и матричной факторизацией. Кроме того, приводятся результаты экспериментов по влиянию информации о спикере. Также в работе рассматривается применение различных техник аугментации и показывается, что применение таких техник аугментации, как реверберация, изменение скорости и громкости сигнала, маскирование частотных и временных характеристик, существенно повышает качество распознавания. На валидационном наборе данных телефонии достигнута ошибка обучения на словах WER 29.17.
Ключевые слова:
распознавание речи, русскоязычная речь, акустическая модель, языковая модель, аугментация звука, эмбеддинги спикера