Strategi Web Scraping

Pengantar

Dalam proses membangun web crawler, pertama-tama perlu terus mengambil berbagai URL dan menyimpannya dalam antrian crawling. Kemudian, dengan mengunduh URL tersebut menggunakan downloader, dan menyimpan halaman yang di-crawl ke dalam basis data web untuk menunggu indeks dibangun, sekaligus menyimpan salinan dalam antrian URL yang telah diambil, agar tidak mengambil ganda.

Strategi Pengambilan

Ada beberapa pilihan strategi untuk mengambil berbagai halaman web:

  • Breadth-first Search:Menambahkan tautan yang terdapat dalam halaman unduhan langsung ke ujung antrian URL yang akan diambil.
  • Depth-first Search:Mengambil semua tautan dari satu halaman terlebih dahulu, lalu secara berurutan mengambil setiap tautan tersebut hingga selesai.

Inti dari strategi-strategi ini adalah mengambil halaman yang penting terlebih dahulu, bukan sekadar menjelajahi seluruh situs web.

Algoritma PageRank

Algoritma PageRank adalah algoritma untuk menilai pentingnya sebuah halaman web, yang mempertimbangkan jumlah dan kualitas tautan masuk. Namun, tidak mungkin menghitung skor PageRank sepenuhnya selama proses pengambilan data. Oleh karena itu, halaman yang sudah diunduh dan halaman dalam daftar yang akan diambil dianalisis secara bersamaan untuk menentukan halaman yang lebih penting untuk diambil terlebih dahulu.

Strategi OPIC

OPIC adalah versi upgrade dari PageRank, yaitu perhitungan pentingnya halaman secara online. Fitur utamanya adalah menghitung pentingnya halaman secara real-time, memberikan skor awal kepada semua URL, kemudian membagi skor ke link dalam halaman tersebut berdasarkan skor halaman yang diunduh, dan mengosongkan skor halaman tersebut, kemudian situs yang akan diambil diutamakan berdasarkan skor tertinggi dalam daftar pengambilan.

Strategi Prioritas Situs Besar

Berdasarkan klasifikasi URL dalam daftar pengambilan dan tingkat domain, situs web dengan bobot yang lebih tinggi akan diutamakan dalam pengambilan. Cara khusus untuk menilai situs besar mungkin berbeda tergantung pada kondisi.