นโยบายการค้นหาข้อมูล
โดยย่อ
ในกระบวนการสร้างเว็บคนเสียว ต้องเริ่มต้นด้วยการดึง URL ต่าง ๆ อย่างไม่หยุด และเก็บรักษาไว้ในคิวที่รอการคนเสียว จากนั้น ให้อัปเดตเชื่อมโหลดเหล่า URL เหล่านี้และเก็บเนื้อหาที่คนเสียวได้เก็บไว้ในคลังข้อมูลเว็บไซต์เพื่อให้สามารถสร้างดัชนีได้ พร้อมเก็บเฉพาะว่า URL ที่ถูกคนเสียวมาแล้วไว้ด้วย เพื่อป้องกันการคนเสียวซ้ำ
กลยุทธ์การคนเสียว
ในการคนเสียวเว็บไซต์ที่แตกต่างกัน มีตัวเลือกสำหรับกลยุทธ์ดังต่อไปนี้:
- ค้นหาแบบความกว้าง ก่อนเพิ่มลิ้งค์ที่เกี่ยวข้องในหน้าด้วยตนเองลงที่จุดสุดท้ายของ URL ที่คนเสียว
- ค้นหาแบบความลึก ก่อนคนสำรวจลิ้งค์ของหน้าต่าง ๆ ก่อน แล้วคนสำรวจลิงค์แต่ละตัวตามลำดับ จนกระทบเสร็จ
หัวใจของกลยุทธ์เหล่านี้คือการคนเสียวหน้าเว็บที่สำคัญก่อน ไม่ใช่การคนเสียวเว็บไซต์อย่างง่ายๆ
อัลกอริทึม PageRank
อัลกอริทึม PageRank เป็นอัลกอริทึมที่ใช้วัดความสำคัญของเว็บไซต์โดยให้ความสำคัญกับจำนวนลิงค์และคุณภาพ แต่ในกระบวนการคนเสียว ไม่สามารถคำนวณคะแนน PageRank อย่างเต็มที่ได้ ดังนั้น ต้องพิจารณาเว็บที่คนสำรวจมาแล้วและที่รอคนเสียวรวม โดยสุดท้ายจึงได้คอยประเมินเว็บที่ดำเนินการไว้ก่อน
กลยุทธ์ OPIC
OPIC คือเวอร์ชันที่อัพเกรดของ PageRank หรือการคำนวณความสำคัญของหน้าเว็บออนไลน์ คุณสมบัติหลักคือการคำนวณค่าความสำคัญของหน้าเว็บในเวลาจริง โดยให้คะแนนเริ่มต้นแก่ URL ทุกตัว จากนั้นสร้าง URL ที่มีคะแนนจากระดับรับผิดชอบของหน้าเว็บที่ดาวน์โหลดและลบคะแนนของหน้าที่ถูกนำไปใช้พร้อมรองรับการดึงรายการบนรายการเริ่มต้นตามลำดับความสำคัญ
ยุทธศาสตร์การนำเข้าข้อมูลของเว็บไซต์ขนาดใหญ่ก่อน
จากการแบ่งประเภท URL ในรายการดึงรายการและดีกรีโดเมน จะพิจารณาเว็บไซต์ตามโดเมนที่มีน้ำหนักมากกว่าเพื่อดึงข้อมูล เช่นเกณฑ์ในการพิจารณาเว็บไซต์ใหญ่อาจแตกต่างไปตามสถานการณ์