Estratégias de Web Scraping

Introdução

Ao construir um web crawler, é necessário primeiro continuar a capturar vários URLs e armazená-los na fila de URLs a serem rastreados. Em seguida, por meio do downloader, baixar esses URLs e armazenar as páginas rastreadas na base de páginas da web aguardando a indexação, enquanto também mantendo uma cópia na fila de URLs já capturados para evitar capturas repetidas.

Estratégia de Captura

Para diferentes estratégias de captura de páginas da web, há várias opções a serem consideradas:

Breadth First Search:Adicionar diretamente os links contidos na página baixada ao final da fila de URLs a serem capturados.
Depth First Search:Capturar todos os links de uma página primeiro e, em seguida, capturar cada link um por um em profundidade até completar.

A essência dessas estratégias é capturar páginas importantes em primeiro lugar, em vez de simplesmente percorrer o site.

Algoritmo PageRank

O algoritmo PageRank é um método para medir a importância de uma página da web, com foco principal na quantidade e na qualidade de links de entrada. No entanto, é impossível calcular completamente os escores do PageRank durante o processo de rastreamento. Portanto, é essencial considerar uma avaliação abrangente das páginas já baixadas e as páginas na lista de URLs a serem capturados, finalmente priorizando a captura das páginas com alta importância.

Estratégia OPIC

OPIC é uma versão aprimorada do PageRank, ou seja, um cálculo em tempo real da importância da página online. Sua característica principal é calcular a importância da página em tempo real, atribuindo inicialmente valores a todas as URLs, em seguida distribuindo esses valores para os links dentro da página e limpando o valor da página original. As URLs são então rastreadas com base nos valores para priorizar a ordem de rastreamento.

Estratégia de priorização de grandes sites

De acordo com a classificação e nível de domínio das URLs na lista de rastreamento, os sites com domínios de maior peso são priorizados para o rastreamento. Os critérios específicos para identificar grandes sites podem variar dependendo da situação.