Алгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками

Автор(ы): Бессонов М.А., Фархадов М.П.

Название статьи: Алгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками

Выпуск: 66

Рубрика: Информационные технологии в управлении

Год: 2017

Библиография: Бессонов М.А., Фархадов М.П. Алгоритмы интерпретации просодических признаков речи при ее обработке низкоскоростными кодеками / Управление большими системами. Выпуск 66. М.: ИПУ РАН, 2017. С.6-24. URL: https://doi.org/10.25728/ubs.2017.66.1

Дата опубликования: 31.03.2017

Ключевые слова: идентификация языка, нейронные сети, просодические признаки речи, широкие фонетические категории

Аннотация: В рамках решения задачи определения языка аудиосообщения на основе просодического подхода предложены два алгоритма интерпретации просодических признаков речи и методика их использования – алгоритм на основе широких фонетических категорий и алгоритм на основе кросскорреляционной функции от мелодики речевого сигнала и последовательности кратковременных энергий. Проводится экспериментальная оценка алгоритмов. В качестве решающего правила используются нейронные сети.

Author(s): Bessonov M., Pasha Farhadov M.

Article title: Algorithms for interpretation of prosodic features in low-bitrate speech processing

Issue: 66

Year: 2017

Keywords: language identification, neural networks, speech prosodic features, broad phonetic categories

Abstract: We study the language identification problem using prosodic features. Prosodic features such as melody, rhythm, timbre and others are difficult to formalize mathematically. Two algorithms for a complex description of prosodic features are proposed in the paper. The first is based on the broad phonetic categories, and the second is based on the cross-correlation of the speech melody and the short-term energy sequence. The fundamental frequency was estimated by MELP algorithm. The performance of the proposed algorithms was evaluated experimentally on a database of speech recordings obtained from Internet and therefore encoded by low-bitrate vocoders. The database includes ten different languages. The proposed algorithms provide a feature description and a multi-layer neural network was used as a language classifier. Both algorithms show satisfactory classification performance, but the broad phonetic categories approach performs slightly better than the cross-correlation function. These algorithms can be applied to a speech signal processed by low-bitrate vocoders without decoding to the original signal.

в формате PDF
Обсудить статью в Интернет-конференции по проблемам управления

Просмотров: 3540; загрузок: 1189, за месяц: 15.

Назад