استراتيجية الزواحف الشبكية

مقدمة

خلال عملية بناء الزواحف على الشبكة، يجب أولاً الاستمرار في جلب مختلف عناوين الويب وتخزينها في قائمة الانتظار للزحف. ثم، يتم تنزيل هذه العناوين بواسطة التنزيل وتخزين الصفحات المزاحبة في مكتبة الويب بانتظار بناء الفهرس، مع تخزين نسخة في قائمة عناوين الويب التي تم جلبها بالفعل لتجنب الجلب المتكرر.

استراتيجية الزحف

هناك عدة خيارات لاختيار استراتيجية الزحف لجمع صفحات الويب المختلفة:

  • التعامل بطريقة العرض الأول - لاولاً:إضافة الروابط الموجودة في صفحة التنزيل مباشرة إلى نهاية قائمة العناوين المنتظرة للجلب.
  • التعامل بطريقة العمق الأول - لأولاً:جلب كافة الروابط في صفحة واحدة أولاً، ثم التحرك تباعًا في جلب كل رابط حتى الانتهاء.

أساس هذه الاستراتيجيات هو جلب الصفحات المهمة أولاً بدلاً من مجرد تصفح الموقع.

خوارزمية PageRank

خوارزمية PageRank هي خوارزمية تقييم أهمية الصفحات على الويب، تأخذ بنظر الاعتبار عدد الروابط الواردة وجودتها. ومع ذلك، لا يمكن حساب نقاط PageRank تمامًا أثناء عملية الجلب. لذا، يتوجب مراعاة الصفحات التي تم تنزيلها بالفعل وتلك الموجودة في قائمة الانتظار للجلب للوصول إلى تقييم شامل، وبالتالي الجلب أولًا للصفحات التي تحظى بأهمية عالية.

استراتيجية OPIC

OPIC هو نسخة محسنة من PageRank، وهو حساب أهمية الصفحة عبر الإنترنت. والسمة الرئيسية له هي حساب أهمية الصفحة في الوقت الحقيقي، حيث يتم تخصيص قيمة بدائية لجميع عناوين URL، ثم يتم توزيع قيمة صفحات التنزيل على الروابط داخل تلك الصفحة وتصفير قيمة الصفحة، ويتم العمل بأولوية تنزيل الروابط الواردة في قائمة الاستحواذ بناءً على قيمة التصنيف.

استراتيجية الأولوية للمواقع الكبيرة

بناءً على تصنيف الروابط في قائمة الاستحواذ ومستوى نطاق اسم النطاق، يتم إعطاء أولوية لتنزيل المواقع على شبكة الإنترنت التي تملك وزنًا أعلى لاسم النطاق. يمكن أن تختلف الطريقة المحددة لتحديد المواقع الكبيرة وفقًا للظروف.