АВТОРСКИХ ПУБЛИКАЦИЙ В СЕТИ ИНТЕРНЕТ
Автор: Виктор Степанович Суховеров
Аннотация:
В работе исследуются возможности использования терминологии авторских публикаций, в том числе, выложенных в сети Интернет, при решении информационных и управленческих задач в научных организациях. Разработана автоматизированная система, представляющая собой программный комплекс, предназначенный для терминологического анализа тематически ориентированных необработанных электронных текстов, например научных публикаций, на естественных языках. Система извлекает термины из текста, принадлежащего определенной предметной области, и строит количественную оценку тематики – профиль документа – на основе мелко-зернистой классификации терминологии публикации. В системе используется терминологический словарь и рубрикатор, соответствующий предметной области и языку анализируемых материалов. По совокупности публикаций система формирует профиль сотрудника – количественную оценку специализации автора. В качестве предметной области при составлении терминологического словаря и для последующих вычислительных экспериментов была выбрана предметная область «Теория управления». Система протестирована на архиве номеров журнала «Автоматика и телемеханика». Далее, в качестве продолжения, разработан вариант системы, функционирующий в сети Интернет. Сетевой вариант ориентирован на решение практических задач. С его помощью построена база данных научных профилей сотрудников Института, а затем программный интерфейс для ранжирования научных сотрудников, специализирующихся в узкой, наперед заданной тематике, принадлежащей предметной области. Профили сотрудников вычислялись по текстам авторских публикаций на русском языке, размещенных в базе данных на сайте Института.
Ключевые слова:
поиск терминов, регулярное выражение, словарь предметной области, профиль сотрудника, программный комплекс