Estratégias de Web Scraping
Introdução
Ao construir um web crawler, é necessário primeiro continuar a capturar vários URLs e armazená-los na fila de URLs a serem rastreados. Em seguida, por meio do downloader, baixar esses URLs e armazenar as páginas rastreadas na base de páginas da web aguardando a indexação, enquanto também mantendo uma cópia na fila de URLs já capturados para evitar capturas repetidas.
Estratégia de Captura
Para diferentes estratégias de captura de páginas da web, há várias opções a serem consideradas:
- Breadth First Search:Adicionar diretamente os links contidos na página baixada ao final da fila de URLs a serem capturados.
- Depth First Search:Capturar todos os links de uma página primeiro e, em seguida, capturar cada link um por um em profundidade até completar.
A essência dessas estratégias é capturar páginas importantes em primeiro lugar, em vez de simplesmente percorrer o site.
Algoritmo PageRank
O algoritmo PageRank é um método para medir a importância de uma página da web, com foco principal na quantidade e na qualidade de links de entrada. No entanto, é impossível calcular completamente os escores do PageRank durante o processo de rastreamento. Portanto, é essencial considerar uma avaliação abrangente das páginas já baixadas e as páginas na lista de URLs a serem capturados, finalmente priorizando a captura das páginas com alta importância.
Estratégia OPIC
OPIC é uma versão aprimorada do PageRank, ou seja, um cálculo em tempo real da importância da página online. Sua característica principal é calcular a importância da página em tempo real, atribuindo inicialmente valores a todas as URLs, em seguida distribuindo esses valores para os links dentro da página e limpando o valor da página original. As URLs são então rastreadas com base nos valores para priorizar a ordem de rastreamento.
Estratégia de priorização de grandes sites
De acordo com a classificação e nível de domínio das URLs na lista de rastreamento, os sites com domínios de maior peso são priorizados para o rastreamento. Os critérios específicos para identificar grandes sites podem variar dependendo da situação.