عمليات الزحف في ديسمبر: كيف ولماذا يزحف Googlebot إلى صفحات الويب

الثلاثاء 3 ديسمبر 2024

من المعروف أنّ محرّك بحث Google يحتاج إلى تنفيذ بعض الخطوات قبل أن تظهر صفحة ويب ضمن نتائج البحث على Google. وإحدى هذه الخطوات تُسمّى الزحف. يزحف محرّك بحث Google إلى الويب باستخدام Googlebot، وهو برنامج يتم تشغيله على خوادم Google، ومهمته استرداد عناوين URL والتعامل مع بعض التعقيدات الصغيرة التي قد تواجهه أثناء الزحف، مثل الأخطاء في الشبكة وعمليات إعادة التوجيه وغيرها. مع ذلك، هناك بعض التفاصيل التي لا يتم الحديث عنها كثيرًا. خلال هذا الشهر، سنستكشف معًا كل أسبوع بعض هذه التفاصيل، إذ إنّها قد تؤثر بشكل ملحوظ في طريقة الزحف إلى مواقعكم الإلكترونية.

تذكير سريع: ما هو الزحف؟

تشمل عملية الزحف اكتشاف صفحات الويب الجديدة، وزيارتها مرة أخرى عند تحديثها، وتنزيلها. باختصار، بعد أن يتلقى Googlebot عنوان URL، يرسل طلب HTTP إلى الخادم الذي يستضيف العنوان ثم يتعامل مع استجابة الخادم، وقد يشمل ذلك اتّباع عمليات إعادة التوجيه ومعالجة الأخطاء ونقل محتوى الصفحة إلى نظام الفهرسة في Google.

ندرك أنّ محتوى صفحات الويب الحديثة لا يقتصر على HTML، فماذا إذًا عن الموارد الأخرى التي تتكوّن منها الصفحة؟ وكيف تتأثّر "ميزانية الزحف" بعملية الزحف إلى تلك الموارد؟ هل هذه الموارد قابلة للتخزين المؤقّت من جهة Google؟ وهل هناك فرق بين عناوين URL التي لم يسبق الزحف إليها والعناوين المفهرسة؟ في هذا المنشور، سنجيب عن هذه الأسئلة، والمزيد.

‫Googlebot والزحف إلى موارد الصفحات

بالإضافة إلى HTML، تستخدم المواقع الإلكترونية الحديثة مجموعة من التكنولوجيات المختلفة، مثل JavaScript وCSS، لتوفير تجارب حيوية ووظائف مفيدة للمستخدمين. عند الدخول إلى هكذا صفحات باستخدام المتصفّح، ينزّل المتصفّح أولاً عنوان URL الرئيسي الذي يستضيف البيانات اللازمة لبدء تركيب الصفحة للمستخدمين، أي محتوى HTML الخاص بالصفحة. قد تتضمّن هذه البيانات الأولية إشارات إلى موارد، مثل JavaScript وCSS، بالإضافة إلى الصور والفيديوهات التي سينزّلها المتصفّح مجددًا لتركيب الصفحة النهائية التي ستُعرض بعد ذلك للمستخدمين.

ينفّذ محرّك بحث Google الخطوات نفسها مع بعض الاختلافات البسيطة:

  1. ينزّل Googlebot البيانات الأولية، أي محتوى HTML الخاص بالصفحة، من عنوان URL الرئيسي.
  2. ينقل Googlebot البيانات التي جلبها إلى "خدمة العرض على الويب" (WRS).
  3. باستخدام Googlebot، تنزّل خدمة WRS الموارد التي تمت الإشارة إليها في البيانات الأصلية.
  4. تركّب خدمة WRS الصفحة باستخدام جميع الموارد التي تم تنزيلها، تمامًا كما يفعل المتصفّح.

قد يستغرق الانتقال من خطوة إلى أخرى وقتًا أطول مقارنةً بالمتصفّح بسبب قيود مرتبطة بالجدولة، مثل زيادة الحِمل على الخادم الذي يستضيف الموارد اللازمة لعرض الصفحة. وهنا يأتي دور الحديث عن ميزانية الزحف.

إنّ الزحف إلى الموارد اللازمة لعرض الصفحة سيؤدي إلى تناقُص ميزانية الزحف المخصّصة لاسم المضيف الذي يستضيف الموارد. للحدّ من هذا التناقص، تحاول خدمة WRS أن تخزِّن بشكل مؤقت كل مورد (JavaScript وCSS) تمت الإشارة إليه في الصفحة التي تعرضها. ولا تتأثر مدة بقاء ذاكرة التخزين المؤقت لخدمة WRS بتوجيهات تخزين HTTP، بل تخزّن خدمة WRS كل الموارد لمدة تصل إلى 30 يومًا، ما يساهم في الحفاظ على ميزانية الزحف الخاصة بالموقع الإلكتروني والاستفادة منها في مهام زحف أخرى.

من منظور مالكي المواقع الإلكترونية، يمكن أن تتأثر ميزانية الزحف الخاصة بالموقع الإلكتروني بالموارد التي يتم الزحف إليها وطريقة الزحف، وبالتالي ننصح بما يلي:

  1. استخدِموا أقل قدر ممكن من الموارد اللازمة لتقديم تجربة رائعة للمستخدمين، لأنّه كلما قلّ عدد الموارد المطلوبة لعرض الصفحة، انخفضت ميزانية الزحف التي يتم استهلاكها خلال العرض.
  2. استخدموا معلَمات تفعيل منظِّم ذاكرة التخزين المؤقت بحذر: إذا تغيّرت عناوين URL الخاصة بالموارد، قد يحتاج Google إلى إعادة الزحف إليها، حتى ولو لم يتغيّر محتواها. وهذا بالطبع سيؤدي إلى استهلاك ميزانية الزحف.
  3. استضيفوا الموارد على اسم مضيف مختلف عن الموقع الإلكتروني الرئيسي، مثلاً من خلال استخدام شبكة لتوصيل المحتوى (CDN) أو عن طريق استضافة الموارد على نطاق فرعي مختلف. سيؤدي ذلك إلى نقل المسائل المتعلقة بميزانية الزحف إلى المضيف الذي يعرض الموارد.

تنطبق جميع هذه النقاط على موارد الوسائط أيضًا. إذا جلب Googlebot (أو على وجه التحديد Googlebot-Image وGooglebot-Video) هذه الموارد، ستُستهلَك ميزانية الزحف الخاصة بالموقع الإلكتروني.

قد تميلون إلى إضافة ملف robots.txt إلى القائمة أيضًا، ولكن من منظور العرض، سيؤدي حظر الزحف إلى الموارد إلى حدوث مشاكل عادةً. إذا لم تتمكّن خدمة WRS من جلب أحد الموارد الضرورية للعرض، قد يواجه محرّك بحث Google مشكلة في استخراج محتوى الصفحة والسماح بحصولها على ترتيب في "بحث Google".

إلى أي موارد يزحف Googlebot؟

المصدر الأفضل لتحليل الموارد التي يزحف إليها محرّك بحث Google هو سجلّات الوصول الأصلية التي تتضمّن إدخالاً لكل عنوان URL تم طلبه من خلال المتصفحات وبرامج الزحف على حدّ سواء. للتعرّف على برامج زحف Google ضمن سجلّات الوصول، يمكنك الاطّلاع على نطاقات عناوين IP المنشورة في مستندات المطوّرين.

ثاني أفضل مصدر هو بالتأكيد "تقرير إحصاءات الزحف" في Search Console الذي يحدد بالتفصيل كل نوع موارد لكل برنامج زحف:

"تقرير إحصاءات الزحف" في Search Console يعرض أنواع موارد مختلفة زحف إليها Googlebot

في الختام، إذا كنتم مهتمين بموضوعَي الزحف والعرض وتريدون الدردشة مع آخرين حول هذا الموضوع، ننصحكم بزيارة منتدى "مجموعة خدمات بحث Google"، ويمكنكم أيضًا التواصل معنا عبر LinkedIn.


التعديلات

  • تعديل بتاريخ 6 ديسمبر 2024: أضفنا ملاحظة حول تأثّر الأداء عند عرض الموارد من مصدر مختلف.

هل يهمّك معرفة المزيد عن الزحف؟ ننصحك بالاطّلاع على سلسلة "الزحف في ديسمبر" بأكملها: