Автор: Екатерина Михайловна Пудикова
Аннотация:
В данной статье произведен обзор существующих и наиболее используемых, на сегодняшний день, веб-краулеров с открытым исходным кодом или доступных в виде краулер-сервисов, инструментов для сбора и анализа данных, извлекаемых с представительских сайтов заданной предметной области. Рассмотренные инструменты категоризованы согласно набору требований, предъявляемых к ним при решении практических задач, и относительно ограничений, наложенных задачей, рассматриваемой в рамках текущего исследования. Произведенный анализ позволил выявить три наиболее подходящих инструмента сбора данных и остановить выбор на краулере Apache Nutch.
Ключевые слова:
Apache Nutch, веб-краулер, сравнительный анализ краулеров, краулер как сервис