Strategie di web scraping

Introduzione

Nel processo di costruzione di un web crawler, è necessario prima di tutto continuare a recuperare varie URL e memorizzarle nella coda di attesa per il crawling. Successivamente, tramite il downloader, scaricare queste URL e memorizzare le pagine raccolte nella libreria web in attesa di essere indicizzate, contemporaneamente memorizzare una copia anche nella coda di URL già recuperate, per evitare di recuperarle nuovamente.

Strategia di Crawling

Per quanto riguarda le strategie di crawling per pagine web diverse, ci sono alcune scelte disponibili:

  • Visita in Ampiezza (Breadth-First Search - BFS):Aggiungere direttamente alla fine della coda di URL da recuperare tutti i link contenuti nella pagina scaricata.
  • Visita in Profondità (Depth-First Search - DFS):Prima di tutto recuperare tutti i link di una pagina e poi procedere a recuperarne uno alla volta in modo approfondito, fino al completamento.

Il cuore di queste strategie è il recupero prioritario delle pagine importanti, anziché una semplice scansione del sito web.

Algoritmo PageRank

L'algoritmo PageRank è un algoritmo per misurare l'importanza delle pagine web, che tiene conto principalmente del numero e della qualità dei link in entrata. Tuttavia, durante il processo di crawling non è possibile calcolare completamente i punteggi di PageRank. Pertanto, è necessario prendere in considerazione sia le pagine già scaricate che quelle presenti nella lista di attesa per il recupero, per determinare prioritariamente le pagine di maggiore importanza da recuperare.

Strategia OPIC

OPIC è una versione migliorata di PageRank, cioè il calcolo dell'importanza delle pagine online. La sua caratteristica principale è il calcolo in tempo reale dell'importanza delle pagine, assegnando inizialmente un punteggio a tutti gli URL, poi distribuendo il punteggio della pagina scaricata ai link all'interno di quella pagina e azzerando il punteggio della pagina stessa. Gli URL da recuperare vengono successivamente ordinati in base al punteggio in modo da essere recuperati in ordine di priorità.

La strategia di prioritizzazione dei siti di grandi dimensioni

In base alla classificazione degli URL nella lista di recupero e al livello di dominio, viene data la precedenza al recupero dei siti web appartenenti a domini con peso maggiore. Il modo specifico di identificare i siti di grandi dimensioni potrebbe variare a seconda della situazione.