стратегия веб-паука

Введение

При создании веб-паука сначала необходимо непрерывно захватывать различные URL и добавлять их в очередь для обхода. Затем, с помощью загрузчика загружать эти URL и сохранять захваченные страницы в веб-хранилище для дальнейшего индексирования, одновременно сохраняя их также в уже захваченной очереди URL, чтобы избежать повторных захватов.

Стратегия захвата

Существует несколько вариантов стратегий для захвата разных веб-страниц:

  • Поиск в ширину:Добавление ссылок, содержащихся на загруженной странице, непосредственно в конец очереди для захвата URL.
  • Поиск в глубину:Сначала захват одной страницы со всеми ссылками, затем последовательный захват каждой ссылки на глубину до завершения.

Основная цель этих стратегий - захват страниц с высокой важностью, а не просто обход всех страниц сайта.

Алгоритм PageRank

Алгоритм PageRank - это алгоритм, измеряющий важность веб-страницы, прежде всего учитывающий количество и качество входящих ссылок. Однако в процессе захвата невозможно полностью рассчитать балл PageRank. Поэтому необходимо учитывать как уже загруженные страницы, так и страницы из списка для захвата, и в итоге отдавать предпочтение захвату страниц с высокой важностью.

Стратегия OPIC

OPIC - это улучшенная версия PageRank, то есть онлайн-расчет важности страниц. Его основная особенность - реальное время расчета важности страниц, сначала дается начальное значение всем URL, затем в зависимости от значения загруженной страницы оно распределяется среди ссылок на этой странице, после чего значение этой страницы очищается, список для загрузки обрабатывается в порядке приоритетности в соответствии с высотой значения.

Приоритетная стратегия для больших сайтов

В зависимости от классификации URL в списке для загрузки и уровня домена определяется, что сайты с большим весом будут загружаться в первую очередь. Конкретный способ определения больших сайтов может различаться в зависимости от обстоятельств.