Estrategias de Web Scraping

Introducción

Al construir un rastreador web, primero es necesario continuar extrayendo varias URL y almacenarlas en la cola de espera para ser rastreadas. Luego, a través del descargador, descargar estas URL y almacenar las páginas rastreadas en la biblioteca web esperando ser indexadas, mientras que también se almacena una copia en la cola de URL ya extraídas para evitar rastreos duplicados.

Estrategia de rastreo

Para las estrategias de rastreo de diferentes páginas web, hay varias opciones disponibles:

Búsqueda en anchura primero:Agregar directamente los enlaces incluidos en la página descargada al final de las URL a rastrear.
Búsqueda en profundidad primero:Rastrear todos los enlaces de una página primero, y luego rastrear cada enlace uno por uno en profundidad hasta completar.

El núcleo de estas estrategias es priorizar el rastreo de páginas importantes en lugar de simplemente recorrer el sitio web.

Algoritmo PageRank

El algoritmo PageRank es un algoritmo que mide la importancia de las páginas web, considerando principalmente la cantidad y calidad de enlaces entrantes. Sin embargo, durante el proceso de rastreo, no es posible calcular por completo la puntuación de PageRank. Por lo tanto, se debe considerar de manera integral las páginas descargadas y las páginas en la lista de espera para el rastreo y, finalmente, priorizar el rastreo de las páginas de alta importancia.

Estrategia OPIC

OPIC es una versión mejorada de PageRank, es decir, un cálculo en tiempo real de la importancia de las páginas en línea. Su característica principal es calcular en tiempo real la importancia de las páginas, asignar valores iniciales a todas las URL, luego distribuir el valor de la página descargada a los enlaces dentro de esa página y restablecer el valor de la página, para luego priorizar la descarga según el valor en la lista de captura.

Estrategia de prioridad para sitios grandes

De acuerdo a la clasificación de URL y el nivel de dominio en la lista de captura, se prioriza la descarga de los sitios web pertenecientes a dominios de mayor peso. La forma específica de determinar qué sitios son grandes podría variar según la situación.