Интернет конференция по проблемам теории и практики управления

Название: Разработка программного конвейера для автоматизированного анализа текста: извлечение ключевых терминов, тематическая кластеризация и аугментация данных
Автор: Оксана Игоревна Захарова
Аннотация:
В статье представлен подход к автоматизированному формированию начального семантического словаря на основе произвольных текстов лю-бой тематики для дальнейшей реализации в системе построения онтологий. Разработанная программа, реализованная в среде Jupyter Notebook, обеспечивает автоматизацию процесса анализа текста, исключая необходимость ручной настройки кода при работе с различными предметными областями. Научная новизна исследования заключается в разработке сквозного, предметно-независимого конвейера для предобработки текста, извлечения ключевых терминов и проведения базового статистического и тематического анализа, реализованного в виде готового к использованию инструмента в Jupyter Notebook. Проведённые эксперименты на текстах различной направленности подтвердили эффективность предложенного подхода. В программе предусмотрены дополнительные функции, такие как перемешивание предложений в случайном порядке для создания вариативных версий текста и расчёт нормализованных, логарифмических и ожидаемых частот символов, что расширяет возможности анализа стилистических особенностей авторского языка. Полученные результаты показали высокую точность и гибкость системы, что открывает перспективы для её применения в различных сферах, включая создание систем рекомендаций, анализ больших данных, предсказательную аналитику и семантические исследования текстов. Разработанный метод отличается от традиционных подходов к созданию семантического словаря своей адаптивностью и универсальностью, позволяя эффективно работать с текстами разных размеров и тематик. Это делает программу ценным инструментом для автоматизации анализа текстовой информации и создания в дальнейшем высокоадаптивных онтологий в условиях растущего объёма цифровых данных.
Ключевые слова:
онтология текста, обработка естественного языка, кластеризация, автоматизация, семантический словарь, аугментация