웹 크롤러 전략

소개

웹 크롤러를 구축하는 과정에서, 우선 다양한 URL을 계속해서 가져와서 크롤링 대기 큐에 저장해야 합니다. 그 다음, 다운로더를 통해 이러한 URL을 다운로드하고 크롤링한 페이지를 웹 페이지 라이브러리에 저장하여 색인을 구축하고, 이미 가져온 URL 목록에도 중복으로 가져오지 않도록 포함시켜야 합니다.

크롤링 전략

다양한 웹 페이지에 대한 크롤링 전략은 다음과 같은 여러 선택지가 있습니다:

  • 너비 우선 탐색:다운로드한 페이지에 포함된 링크를 직접 대기 중인 URL 목록 끝에 추가합니다.
  • 깊이 우선 탐색:먼저 하나의 페이지의 모든 링크를 가져온 다음, 각 링크를 하나씩 깊이 있는 방식으로 크롤링하여 완료합니다.

이러한 전략의 핵심은 중요한 페이지를 우선으로 크롤링하는 것이며, 사이트를 단순히 탐색하는 것이 아닙니다.

PageRank 알고리즘

PageRank 알고리즘은 웹 페이지의 중요성을 측정하는 알고리즘으로, 인입 링크의 수와 품질을 주요 고려 대상으로 합니다. 그러나 크롤링 과정에서는 PageRank 점수를 완전히 계산할 수 없습니다. 그래서 이미 다운로드한 페이지와 크롤링 대기 목록의 페이지를 종합적으로 고려하여 최종적으로 중요성이 높은 페이지를 우선적으로 크롤링합니다.

OPIC 전략

OPIC는 PageRank의 업그레이드 버전으로 온라인 페이지 중요도 계산이다. 주요 특징은 실시간으로 페이지의 중요도를 계산하며, 모든 URL에 초기 점수를 부여한 다음에 다운로드한 페이지의 점수를 해당 페이지 내 링크에 분배하고 해당 페이지의 점수를 지우고, 크롤링 목록에서 점수에 따라 우선순위를 정하고 크롤링한다.

큰 사이트 우선 전략

크롤링 목록의 URL을 분류하고 도메인 수준으로 판단하여 높은 가중치를 가진 웹 사이트의 소속 도메인을 우선해서 크롤링한다. 큰 사이트를 구분하는 구체적인 판단 방법은 상황에 따라 다를 수 있다.