УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта

Интернет конференция по проблемам теории и практики управления

На этом форуме обсуждаются научные публикации, связанные с применением математических моделей в управлении сложными (большими) системами. Для размещения новой публикации воспользуйтесь ссылкой "Подать статью" сверху. С помощью той же ссылки подаются статьи для публикации в Сборнике "Управление большими системами". Все подаваемые в Сборник статьи автоматически публикуются в этой Интернет-конференции, но можно подать статью в Конференции, не подавая ее в Сборник.

Появление статьи в Интернет-конференции не говорит о том, что она опубликована или будет опубликована в Сборнике "Управление большими системами". Статьи в Интернет-конференции публикуются в первоначальной авторской редакции. Изменения, вносимые в статью редколлегией Сборника в процессе ее рассмотрения, не отображаются автоматически в Интернет-конференции. Авторы статей могут внести соответствующие изменения вручную, разместив ответ на сообщение со своей статьей в Интернет-конференции.

Поиск  Пользователи  Правила 
Закрыть
Логин:
Пароль:
Забыли свой пароль?
Регистрация
Войти  
Страницы: 1
Разработка современной системы распознавания русскоязычной речи для доменов телефонии и YouTube, Описывается система, разработанная для распознавания русскоязычной речи. Мы фокусируемся на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 кГц, полученный в условиях с повышенными шумами. Помимо
Название: Разработка современной системы распознавания русскоязычной речи для доменов телефонии и YouTube
Автор: Дмитрий Сергеевич Обухов
Аннотация:
Описывается система, разработанная для распознавания русскоязычной речи. Мы фокусируемся на домене телефонных разговоров, когда на вход поступает одноканальный аудиосигнал с частотой дискретизации 8 кГц, полученный в условиях с повышенными шумами. Помимо основного домена телефонных разговоров, для обучения используются данные из видеохостинга YouTube. Рассматривается ряд акустических моделей, среди которых наиболее эффективной оказалась архитектура нейронной сети с временной задержкой и матричной факторизацией. Кроме того, приводятся результаты экспериментов по влиянию информации о спикере. Также в работе рассматривается применение различных техник аугментации и показывается, что применение таких техник аугментации, как реверберация, изменение скорости и громкости сигнала, маскирование частотных и временных характеристик, существенно повышает качество распознавания. На валидационном наборе данных телефонии достигнута ошибка обучения на словах WER 29.17.
Ключевые слова:
распознавание речи, русскоязычная речь, акустическая модель, языковая модель, аугментация звука, эмбеддинги спикера
obukhov.pdf (151.29 КБ) [ Скачать ]

Статус рассмотрения статьи редколлегией сброшен

Статус рассмотрения статьи редколлегией: Учет замечаний рецензента автором

Статус рассмотрения статьи редколлегией: Рецензируется

Статус рассмотрения статьи редколлегией: Принята к публикации

Статус рассмотрения статьи редколлегией: Учет замечаний редактора автором

Опубликована в 89 выпуске Сборника «Управление большими системами».
Ссылка на финальный текст
Страницы: 1