УПРАВЛЕНИЕ БОЛЬШИМИ СИСТЕМАМИ
на главную написать письмо карта сайта

Машинный мониторинг текстовых чатов и предсказание аномалий


Название статьи:  Машинный мониторинг текстовых чатов и предсказание аномалий
Выпуск: 109
Год: 2024
Библиография: Мозаидзе Е.С., Зуев С.В. Машинный мониторинг текстовых чатов и предсказание аномалий // Управление большими системами. Выпуск 109. М.: ИПУ РАН, 2024. С.67-88. DOI: https://doi.org/10.25728/ubs.2024.109.4
Дата опубликования: 31.05.2024
Ключевые слова: предсказание аномалий, тематическое моделирование, вероятности редких событий, повторяемость редких событий, аномалии в текстовых чатах
Аннотация: Целью работы является разработка нового метода предсказания аномалий в текстовых чатах, не использующего корпусы текстов. Поставленные задачи: краткое представление статистического описания повторяемости аномалий, развитого в прошлых работах авторов, введение метода парных (обобщенных) N-грамм на коллекциях «существительное – глагол», синтез указанных методов в новый метод предсказания аномалий в системах обмена короткими сообщениями, тестирование метода. Предложен новый метод предсказания аномалий в потоке текстовых сообщений, не использующий корпус текстов для обучения, и, кроме того, допускающий онлайн-обучение. Материалом для работы были чаты, группы и каналы в Telegram, на которые подписан один из авторов работы, с большим объемом текстового материала. Метод использует статистическое распределение повторения аномалий, а также метод тематического моделирования на основе статистики пар «существительное – глагол». Оба метода предложены ранее в работах авторов. Проведенный эксперимент показал соответствие результатов, предсказанных с помощью предлагаемого метода, фактически зарегистрированным аномалиям. Применение предложенного метода может быть полезно в исследованиях и анализе появления аномалий в сложных социальных системах, взаимодействие в которых отражается в коммуникациях через социальные сети и мессенджеры. Подобного рода задачи являются актуальными как для государственных структур, так и для бизнеса, и могут позволить сгладить острые социальные и производственные проблемы. Особенно полезен предложенный метод для журналистов – он позволяет определить время наиболее вероятного появления значимых социальных явлений.


Author(s): Mozaidze E., Zuev S.
Article title: Machine monitoring of text chats and detection of anomalies
Issue: 109
Year: 2024
Keywords: anomaly detection, topic modeling, probabilities of rare events, repeatability of rare events, anomalies in text chats
Abstract: The aim of the work is to develop a new method for detecting anomalies in text chats that does not use text corpora. Tasks: a brief presentation of the statistical description of the recurrence of anomalies developed in the authors' previous works, the introduction of the method of paired (generalized) N-grams, the synthesis of these methods into a new method for detecting anomalies in short message exchange systems, the method testing. A new method for detecting anomalies in the flow of text messages is proposed, which does not use a corpus of texts for learning, and, in addition, allows online learning. The material for the work was chats, groups and channels in Telegram, to which one of the authors of the work is subscribed. The volume of text material was about 50 MB, which corresponds to about 2 million words collected over 5 years. The method uses a statistical distribution of the repetition of anomalous events, as well as a method of thematic modeling based on the statistics of noun-verb pairs. Both methods were proposed earlier in the authors' works. The experiment showed that the results predicted by the proposed method correspond to the actually registered anomalies. The application of the proposed method can be useful in research and analysis of the appearance of anomalies in complex social systems, the interaction in which is reflected in communications through social networks and messengers. Such tasks are relevant both for government agencies and for business, and can help to smooth out acute social and industrial problems. The proposed method is seemed especially useful for the journalism because it allows you to determine the time of the most likely appearance of significant social phenomena.


в формате PDF

Просмотров: 37; загрузок: , за месяц: .

Назад

ИПУ РАН © 2007. Все права защищены