Автор: Александр Александрович Чеснавский
Аннотация:
Рассматривается алгоритм семантического отслеживания изменений в документах HTML. Основными преимуществами предлагаемого алгоритма является отслеживание изменений в данных веб-страницы, а не в презентационной части, отсутствие необходимости знать внутреннюю структуру HTML-документа и проводить предобработку. Алгоритм может быть использован при анализе объемных веб-страниц, а также для эффективной веб-интеграции (веб-клиппинга).
Ключевые слова:
веб-клиппинг, веб-интеграция, семантический анализ изменений HTML