УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта

Кластеризация текстов финансовых сообщений


Автор(ы): Егоркин А.А.
Название статьи:  Кластеризация текстов финансовых сообщений
Выпуск: 116
Год: 2025
Библиография: Егоркин А.А. Кластеризация текстов финансовых сообщений // Управление большими системами. - 2025. - Вып. 116. - С.47-67.
Дата опубликования: 26.07.2025
Ключевые слова: метод k-средних, DBSCAN, иерархический метод кластеризации, кластеризация финансовых сообщений
Аннотация: Работа посвящена задаче кластеризации текстов финансовых сообщений алгоритмами машинного обучения. С помощью алгоритмов кластеризации можно выделить группы похожих финансовых сообщений, выделить среди них однотипные или подозрительные, а также использовать в дальнейшем анализе найденные кластеры, а не сами тексты сообщений. В работе используются такие алгоритмы кластеризации как K-means, DBSCAN и иерархический метод кластеризации. В качестве текстов финансовых сообщений в работе используется информация о банковских транзакциях. Ввиду того, что банковские проводки подчинены строгим правилам бухгалтерского учета, устанавливаемым Банком России, представляется возможным ввести метрику оценки качества кластеризации. Данная метрика позволяет ранжировать между собой качество кластеризации с помощью алгоритмов машинного обучения, а также подобрать параметры, используемые при обучении данных моделей. Отдельное внимание в статье уделено особенностям используемых данных и тому, каким образом эти особенности могут быть учтены в практической части. В практической части работы приводятся результаты применения моделей кластеризации с указанием оптимальных параметров данных алгоритмов. В заключении делается вывод о лучших алгоритмах кластеризации применительно к финансовым текстам.


Author(s): Egorkin A.
Article title: Clustering of financial message texts
Issue: 116
Year: 2025
Keywords: K-means, DBSCAN, hierarchical clustering method, clustering of financial messages
Abstract: The paper is devoted to the problem of clustering financial message texts by machine learning algorithms. Clustering algorithms can be used to identify groups of similar financial messages, identify the same type or suspicious ones, and use the clusters found rather than the message texts themselves in further analysis. Clustering algorithms such as K-means, DBSCAN and the Hierarchical Clustering method are used in the work. Information about bank transactions is used as texts of financial messages in the work. Due to the fact that bank transactions are subject to strict accounting rules established by the Bank of Russia, it is possible to introduce a metric for assessing the quality of clusterization. This metric allows you to rank the quality of clustering using machine learning algorithms, as well as select the parameters used in training these models. Special attention in the article is paid to the specifics of the data used, and how these features can be taken into account in the practical part. In the practical part of the paper, the results of using clustering models are presented, indicating the optimal parameters of these algorithms. In conclusion, it is concluded that the best clustering algorithms are applied to financial texts.


в формате PDF

Просмотров: 77; загрузок: 13, за месяц: 12.

Назад

ИПУ РАН © 2007. Все права защищены