Stratégie de crawl du web

Introduction

Lors de la construction d'un crawler, il est d'abord nécessaire de continuellement extraire divers URL et de les stocker dans une file d'attente à crawler. Ensuite, en utilisant un downloader, télécharger ces URL et stocker les pages crawleés dans une bibliothèque web en attendant d'être indexées, tout en les gardant également dans la file d'URL déjà extraites pour éviter les duplications.

Stratégie de Crawl

Pour différentes stratégies de crawl pour les pages web, voici quelques choix :

  • Parcours en largeur d'abord :Ajouter directement les liens inclus dans la page téléchargée à la fin de l'URL en attente d'être extrait.
  • Parcours en profondeur d'abord :Extraire d'abord tous les liens d'une page, puis aller en profondeur pour extraire chaque lien un par un, jusqu'à complétion.

Le cœur de ces stratégies est de prioriser l'extraction des pages importantes plutôt que de simplement parcourir le site web.

Algorithme PageRank

L'algorithme PageRank est un algorithme pour évaluer l'importance d'une page web, en considérant principalement la quantité et la qualité des liens entrants. Cependant, il est impossible de calculer pleinement les scores de PageRank lors du crawl. Ainsi, une considération intégrée des pages déjà téléchargées et celles en attente d'extraction permet de prioriser l'extraction des pages les plus importantes.

Stratégie OPIC

OPIC is an upgraded version of PageRank, that is, online page importance calculation. Its main feature is to calculate the importance of pages in real time, assign initial scores to all URLs, then distribute scores to the links within the page based on the score of the downloaded page, and clear the score of that page. Pages are then prioritized for crawling based on their score in the crawling list.

Big site priority strategy

Based on the classification of URLs in the crawling list and the domain level, websites belonging to domains with higher weight are given priority for crawling. The specific way to determine big sites may vary depending on the situation.