Название статьи: Обзор алгоритмов фонетического кодирования
Библиография: Выхованец В.С., Ду Ц., Сакулин С.А. Обзор алгоритмов фонетического кодирования // Управление большими системами. Выпуск 73. М.: ИПУ РАН, 2018. С.67-94. URL: https://doi.org/10.25728/ubs.2018.73.4
Дата опубликования: 31.05.2018
Ключевые слова: алгоритм фонетического кодирования, фонетическое расстояние, индексирование слов по звучанию
Аннотация: Приведен обзор алгоритмов фонетического кодирования, предназначенных для определения схожести слов по звучанию (произношению). Алгоритмы фонетического кодирования разделены на алгоритмы для сравнения слов и алгоритмы определения расстояния между словами. Описаны алгоритмы сравнения слов SoundEx, NYSIIS, Daitch-Mokotoff, Metaphone, Polyphone и алгоритмы вычисления расстояния между словами Левенштейна, Джаро, на основе N-грамм. Для каждого алгоритма указаны его достоинства и недостатки, приводится аналог алгоритма для русского языка. Для устранения общих недостатков алгоритмов фонетического кодирования предложено использовать не последовательности букв слов, а последовательности их элементарных звуков.
Author(s): Vykhovanets V., Du J., Sakulin S.
Article title: Overview of phonetic encoding algorithms
Keywords: phonetic encoding algorithms, phonetic distance, record linkage, indexing words by sound
Abstract: This paper gives an overview of the phonetic encoding algorithms, designed to determine the similarity of words in sound (pronunciation). Phonetic encoding algorithms are divided into algorithms for comparing words and algorithms for determining the distance between words. Word comparison algorithms such as SoundEx, NYSIIS, Daitch-Mokotoff, Metaphone, Polyphone and algorithms for determining the distance between words such as Levenshtein, Jaro, N-grams are described. For each algorithm, its advantages and disadvantages are indicated, an analogue of the algorithm for the Russian language is given. To eliminate the common shortcomings of phonetic encoding algorithms, it is proposed to use not the sequence of letters of words, but the sequence of their elementary sounds. In this case, word recognition, record linkage, indexing words by sounds are expected to improve.
В формате PDFОбсудить статью в Интернет-конференции по проблемам управления
Просмотров: 2863; загрузок: 868, за месяц: 13.
Назад