دليل مالكي المواقع الإلكترونية الكبيرة لإدارة ميزانية الزحف
يشرح هذا الدليل طريقة تحسين زحف Google إلى المواقع الإلكترونية الكبيرة جدًا والتي يتم إجراء تعديلات عليها بشكل متكرّر.
إذا كان موقعك الإلكتروني لا يتضمّن عددًا كبيرًا من الصفحات السريعة التغيّر أو إذا كان الزحف إلى صفحاتك يتم في اليوم نفسه الذي تُنشر فيه، لا تحتاج إلى قراءة هذا الدليل. في تلك الحالة، يكفي أن تحدّث خريطة الموقع باستمرار وأن تتحقّق من تغطية الفهرس بانتظام.
إذا كان المحتوى الخاص بك متاحًا منذ فترة ولكن لم يسبق أن تمت فهرسته، يجب حلّ هذه المشكلة بطريقة مختلفة، إذ عليك في تلك الحالة استخدام أداة فحص عنوان URL لمعرفة سبب عدم فهرسة صفحتك.
الفئات المعنيّة بهذا الدليل
هذا الدليل متقدّم وهو مخصّص للفئات التالية:
- المواقع الإلكترونية الكبيرة (التي تتضمّن أكثر من مليون صفحة فريدة) والتي تعرض محتوًى يتغيّر بوتيرة معتدلة (مرة كل أسبوع)
- المواقع الإلكترونية المتوسطة أو الكبيرة (التي تتضمن أكثر من 10,000 صفحة فريدة) والتي تعرض محتوًى سريع التغيّر (يوميًا)
- المواقع الإلكترونية التي يتم تصنيف قدر كبير من إجمالي عناوين URL الخاصة بها من خلال Search Console ضمن الفئة تم اكتشاف الصفحة - لم تتم فهرستها حتى الآن
النظرية العامة للزحف
الويب هو مساحة كبيرة جدًا تكاد تكون غير متناهية، لذا يتعذّر على محرّك بحث Google استكشاف وفهرسة جميع عناوين URL المتاحة. ونتيجةً لذلك، يتم تطبيق حدود على الوقت الذي يمكن أن يقضيه Googlebot في الزحف إلى أي موقع إلكتروني فردي. ويُشار عادةً إلى المقدار الذي يخصّصه Google من الوقت والموارد للزحف إلى موقع إلكتروني بعبارة ميزانية الزحف إلى الموقع الإلكتروني. ويُرجى العِلم بأنّه لن تتم بالضرورة فهرسة جميع الصفحات التي يتم الزحف إليها على موقعك الإلكتروني، لأنّه يجب تقييم كل صفحة ودمجها لتحديد ما إذا كانت ستتم فهرستها بعد الزحف إليها.
يتم تحديد ميزانية الزحف استنادًا إلى عنصرَين أساسيَين، هما: الحد الأقصى لسعة الزحف وطلب الزحف.
الحد الأقصى لسعة الزحف
يهدف Googlebot إلى الزحف إلى موقعك الإلكتروني بدون تحميل الخوادم عبئًا زائدًا. ولتحقيق ذلك، يحتسب Googlebot الحد الاقصى لسعة الزحف، وهو الحد الأقصى لعدد الاتصالات المتوازية والمتزامنة التي يمكن لبرنامج Googlebot استخدامها للزحف إلى موقع إلكتروني، بالإضافة إلى مدة التأخير الفاصلة بين عمليات جلب البيانات. ويتم احتساب ذلك لتوفير تغطية لكل المحتوى المهم الذي تعرضه بدون تحميل خوادم موقعك الإلكتروني عبئًا زائدًا.
قد يرتفع أو ينخفض الحدّ الأقصى لسعة الزحف استنادًا إلى بضعة عوامل:
- سلامة الزحف: إذا استجاب الموقع الإلكتروني بسرعة عالية لبعض الوقت، سيرتفع الحدّ الأقصى، أي أنّه يمكن استخدام المزيد من الاتصالات للزحف. وإذا كانت استجابة الموقع الإلكتروني بطيئة أو كانت تشير إلى أخطاء في الخادم، سينخفض الحدّ الأقصى لمعدّل الزحف وسيزحف Googlebot بمعدّل أقل.
- حدود الزحف لدى Google: تملك Google العديد من الأجهزة، ولكن ليس بكمية لا متناهية. وبالتالي، علينا تحديد الخيارات باستخدام الموارد المتاحة لنا.
طلب الزحف
يخصّص محرّك بحث Google عادةً وقتًا كافيًا للزحف إلى موقع إلكتروني استنادًا إلى حجمه ووتيرة تعديله وجودة الصفحة ومدى ملاءمة المحتوى للمستخدمين مقارنةً بمواقع أخرى.
تشمل العوامل التي تؤدي دورًا مهمًا في تحديد طلب الزحف ما يلي:
- عناوين URL المخزّنة التي يتم رصدها: في حال لم تقدّم أي إرشادات إلى Googlebot، سيحاول الزحف إلى جميع أو معظم عناوين URL التي يرصدها على موقعك الإلكتروني. وإذا كان العديد من عناوين URL هذه نسخًا مكرّرة أو كنت لا تريد أن يتم الزحف إليها لسبب آخر (تمت إزالتها أو أنّها غير مهمة وما شابه)، سيؤدي ذلك إلى إهدار الكثير من الوقت الذي يخصّصه Google للزحف إلى موقعك الإلكتروني. وهذا أكثر عامل يمكن التحكّم به بصورة إيجابية.
- مدى الرواج: يتم عادةً الزحف بوتيرة أسرع إلى عناوين URL الأكثر رواجًا على الإنترنت بهدف إبقائها محدَّثة في فهرسنا.
- مدى القِدم: تريد أنظمتنا إعادة الزحف إلى المستندات بشكل متكرّر بما يكفي لرصد أي تغييرات.
بالإضافة إلى ذلك، قد تؤدي الأحداث التي تتم على مستوى الموقع الإلكتروني، مثل عمليات نقل الموقع الإلكتروني، إلى زيادة طلب الزحف لإعادة فهرسة المحتوى ضمن عناوين URL الجديدة.
الخلاصة
استنادًا إلى سعة الزحف وطلب الزحف معًا، يعرّف Google ميزانية الزحف للموقع الإلكتروني كمجموعة عناوين URL التي يستطيع ويريد برنامج Googlebot الزحف إليها. إذا كانت وتيرة طلب الزحف منخفضة، سيزحف Googlebot إلى موقعك الإلكتروني بمعدّل أقل حتى إذا لم يتم بلوغ الحدّ الأقصى لسعة الزحف.
أفضل الممارسات
يمكنك اتّباع أفضل الممارسات التالية لتحسين كفاءة الزحف إلى أقصى حدّ:
- إدارة عناوين URL المخزّنة: استخدِم الأدوات المناسبة
لإبلاغ Google بالصفحات المطلوب الزحف إليها والصفحات التي لا ينبغي الزحف إليها. إذا قضى Google الكثير من
الوقت في الزحف إلى عناوين URL غير مناسبة للفهرس، قد يستنتج برنامج Googlebot أنّه
من غير المجدي تخصيص وقت للاطّلاع على بقية أجزاء موقعك الإلكتروني (أو زيادة ميزانيتك لإجراء ذلك).
- دمج المحتوى المكرّر: أزِل المحتوى المكرّر للتركيز على الزحف إلى محتوى فريد بدلاً من عناوين URL فريدة.
- حظر الزحف إلى عناوين URL باستخدام ملف robots.txt: قد تكون بعض الصفحات مهمة للمستخدمين، ولكنّك لا تريدها بالضرورة أن تظهر في نتائج البحث على Google. على سبيل المثال، صفحات التمرير اللانهائي التي تكرّر المعلومات على الصفحات المرتبطة، أو النُسخ المتعدّدة من الصفحة ذاتها والمرتّبة بشكل مختلف. إذا لم تتمكن من دمج المحتوى المكرّر كما هو موضّح في النقطة الأولى، احظر هذه الصفحات غير المهمة (للبحث) باستخدام ملف robots.txt. يؤدي حظر عناوين URL باستخدام ملف robots.txt إلى خفض احتمال فهرستها بشكل ملحوظ.
-
عرض رمز الحالة
404
أو410
للصفحات التي تمت إزالتها نهائيًا: لن ينسى Google عنوان URL اطّلع عليه سابقًا، ولكنّ رمز الحالة404
هو إشارة قوية بعدم الزحف إلى عنوان URL هذا مجددًا. وستبقى عناوين URL المحظورة جزءًا من قائمة انتظار الزحف لفترة أطول، وستتم إعادة الزحف إليها عند إزالة الحظر. - إزالة أخطاء
soft 404
: سيتواصل الزحف إلى الصفحات التي تعرض الخطأsoft 404
، ما يؤدي إلى إهدار ميزانيتك. تحقّق من تقرير "تغطية الفهرس" بحثًا عن أخطاءsoft 404
. - تعديل خرائط الموقع باستمرار: يقرأ Google خريطة الموقع بانتظام،
لذا تأكَّد من تضمين كل المحتوى الذي تريد أن يزحف Google إليه. إذا كان موقعك الإلكتروني
يتضمّن محتوًى تم تعديله، ننصحك بتضمين العلامة
<lastmod>
. - تجنُّب سلاسل إعادة التوجيه الطويلة التي تؤثّر سلبًا في عملية الزحف
- تحسين صفحاتك ليتم تحميلها بشكل أسرع: إذا كان بإمكان Google تحميل صفحاتك وعرضها بشكل أسرع، قد نتمكّن من قراءة المزيد من المحتوى على موقعك الإلكتروني.
- مراقبة عملية الزحف إلى موقعك الإلكتروني: تأكَّد من أنّ موقعك الإلكتروني خالٍ من أي مشاكل في مدى التوفّر أثناء عملية الزحف، وابحث عن طرق لجعل عملية الزحف أكثر فعالية.
مراقبة الزحف والفهرسة على موقعك الإلكتروني
في ما يلي الخطوات الأساسية لمراقبة ملف الزحف الخاص بموقعك الإلكتروني:
- التحقّق مما إذا كان Googlebot يواجه مشاكل متعلّقة بمدى التوفّر على موقعك الإلكتروني
- التحقّق مما إذا كانت لديك صفحات لا يتم الزحف إليها في حين أنّ ذلك ضروري
- التحقّق مما إذا كان يجب زيادة سرعة الزحف إلى أي جزء من موقعك الإلكتروني
- تحسين كفاءة الزحف إلى موقعك الإلكتروني
- معالجة عمليات الزحف الزائدة إلى موقعك الإلكتروني
التحقّق مما إذا كان Googlebot يواجه مشاكل متعلّقة بمدى التوفّر على موقعك الإلكتروني
إنّ تحسين توفُّر موقعك الإلكتروني لن يؤدي بالضرورة إلى زيادة ميزانية الزحف، لأنّ Google يحدّد أفضل معدّل زحف بناءً على طلب الزحف، كما هو موضّح سابقًا. والمشاكل المرتبطة بمدى التوفّر تمنع Google من الزحف إلى موقعك بالمعدّل الذي يريده.
التشخيص:
استخدِم تقرير إحصاءات الزحف للاطّلاع على سجلّ زحف Googlebot إلى موقعك الإلكتروني. يعرض التقرير الحالات التي واجه فيها Google مشاكل مرتبطة بالتوفّر على موقعك الإلكتروني. إذا تم الإبلاغ عن أخطاء أو تحذيرات مرتبطة بتوفّر موقعك الإلكتروني، ابحث في الرسوم البيانية الخاصة بتوفّر المضيف عن الحالات التي تجاوزت فيها طلبات Googlebot الخطّ الأحمر الذي يمثّل الحدّ الأقصى، وانقر على الرسم البياني للاطّلاع على عناوين URL التي أخفقت وحاوِل معرفة صلتها بالعناوين التي تتضمّن مشاكل على موقعك الإلكتروني.
بالإضافة إلى ذلك، يمكنك استخدام أداة فحص عنوان URL لاختبار بضعة عناوين URL على موقعك الإلكتروني. إذا عرضَت الأداة تحذيرات من نوع تم تجاوز الحد الأقصى لتحميل المضيف، هذا يعني أنّ Googlebot لا يمكنه الزحف إلى جميع عناوين URL التي رصدَها على موقعك الإلكتروني.
الحلّ:
- يمكنك الاطّلاع على مستندات تقرير إحصاءات الزحف للتعرّف على طريقة رصد بعض المشاكل المرتبطة بمدى التوفّر وحلّها.
- حظر الزحف إلى الصفحات التي لا تريد أن يتم الزحف إليها (راجِع إدارة مخزن بياناتك)
- زيادة سرعة تحميل وعرض الصفحة (راجِع تحسين كفاءة الزحف إلى موقعك الإلكتروني)
- زيادة سعة الخادم إذا بدا لك أنّ Google يزحف باستمرار إلى موقعك الإلكتروني وصولاً إلى الحدّ الأقصى لسعة العرض ولكن لا تزال لديك عناوين URL مهمة لا يتم الزحف إليها أو تعديلها بالمقدار المطلوب، قد يتمكّن Google من طلب المزيد من الصفحات على موقعك الإلكتروني إذا تم توفير المزيد من موارد العرض. تحقَّق من سجلّ توفر المضيف في تقرير إحصاءات الزحف لمعرفة ما إذا كان معدّل الزحف لمحرّك بحث Google يتجاوز خطّ الحدّ الأقصى بشكل متكرّر. في تلك الحالة، يمكنك زيادة موارد العرض لمدة شهر ومراقبة ما إذا كانت طلبات الزحف قد ازدادت خلال الفترة نفسها.
التحقّق مما إذا كانت لديك أجزاء على موقعك الإلكتروني لا يتم الزحف إليها في حين أنّ ذلك ضروري
يخصّص Google وقتًا كافيًا حتى يفهرس كل المحتوى العالي الجودة والمفيد للمستخدمين الذي يجده على موقعك الإلكتروني. إذا كنت تعتقد أنّ Googlebot يفوته الزحف إلى بعض المحتوى المهم، قد يكون السبب أنّه لم يرصد المحتوى أو أنّ Google محظور من الوصول إلى المحتوى أو أنّ مدى توفّر موقعك الإلكتروني يعيق إمكانية وصول Google إلى المحتوى (أو أنّ Google يحاول عدم زيادة الحمل على موقعك الإلكتروني).
التشخيص:
لا توفّر خدمة Search Console سجلّ زحف إلى موقعك الإلكتروني قابلاً للفلترة حسب عنوان URL أو المسار، ولكن يمكنك فحص سجلّات موقعك الإلكتروني لمعرفة ما إذا كان Googlebot قد زحف إلى عناوين URL معيّنة. وما من رابط بين هذا الموضوع وفهرسة أو عدم فهرسة عناوين URL التي تم الزحف إليها.
تذكَّر أنّه في معظم المواقع الإلكترونية، يستغرق اكتشاف الصفحات الجديدة عدة أيام كحدّ أدنى، ومن غير المتوقّع أن يتم الزحف إلى عناوين URL على المواقع الإلكترونية في اليوم نفسه باستثناء المواقع الحساسة للوقت، مثل مواقع الأخبار.
الحلّ:
إذا كنت تضيف صفحات إلى موقعك الإلكتروني ولا يتم الزحف إليها خلال فترة زمنية معقولة، يشير ذلك إلى أنّ Google لا يعرف بها أو أنّ المحتوى محظور أو أنّ موقعك الإلكتروني قد وصل إلى الحد الأقصى لسعة العرض أو أنّ ميزانية الزحف قد نفدت لموقعك الإلكتروني.
- أطلِع Google على صفحاتك الجديدة: عدِّل خرائط الموقع من خلال تضمين عناوين URL الجديدة.
- راجِع قواعد robots.txt للتأكد من أنّك لا تحظر صفحات عن طريق الخطأ.
- راجِع أولويات الزحف (أي استخدِم ميزانية الزحف بطريقة فعالة). عليك إدارة مخزن البيانات وتحسين كفاءة الزحف إلى موقعك الإلكتروني.
- تأكَّد من عدم نفاد سعة العرض لموقعك الإلكتروني. سيخفّض Googlebot معدّل الزحف إذا وجد أنّ الخوادم تواجه مشكلة في الاستجابة لطلبات الزحف.
يُرجى العِلم بأنّه قد لا يتم عرض الصفحات في نتائج البحث حتى إذا تم الزحف إليها ما لَم يكُن هناك قيمة كافية للمحتوى أو طلب من المستخدمين عليه.
التحقّق مما إذا كان الزحف إلى التعديلات يتم بسرعة كافية
إذا فاتتنا صفحات جديدة أو معدّلة على موقعك الإلكتروني، قد يكون السبب أنّنا لم نرَها أو لم نلاحظ أنّه تم تعديلها. ويمكنك مساعدتنا في الاطّلاع على التعديلات التي تتم في الصفحات على النحو التالي.
يعمل محرّك بحث Google جاهدًا للتحقّق من الصفحات وفهرستها خلال وقت معقول. في معظم المواقع الإلكترونية، يستغرق ذلك ثلاثة أيام أو أكثر. ومن غير المتوقّع أن يفهرس Google الصفحات في اليوم نفسه الذي تنشرها فيه إلا إذا كان لديك موقع إخباري أو كنت تعرض محتوى آخر عالي القيمة وحساسًا جدًا للوقت.
التشخيص:
تحقَّق من سجلّات موقعك الإلكتروني لمعرفة الوقت الذي زحف فيه Googlebot إلى عناوين URL معيّنة.
لمعرفة تاريخ الفهرسة، استخدِم أداة فحص عنوان URL أو ابحث في Google عن عناوين URL التي عدّلتها.
الحلّ:
إجراءات محبَّذة:
- استخدام خريطة موقع لخدمة "أخبار Google" إذا كان موقعك الإلكتروني يعرض محتوًى إخباريًا
- استخدام علامة
<lastmod>
في خرائط الموقع للإشارة إلى الوقت الذي تم فيه تعديل عنوان URL المفهرَس - استخدام بنية عنوان URL بسيطة لمساعدة Google في العثور على صفحاتك
- توفير روابط
<a>
قابلة للزحف وعادية لمساعدة Google في العثور على صفحاتك - إذا كان موقعك الإلكتروني يستخدم بروتوكول HTML منفصلاً للنُسخ المخصّصة لأجهزة الكمبيوتر والأخرى المخصَّصة للأجهزة الجوّالة، عليك توفير مجموعة الروابط نفسها في النسخة المخصَّصة للأجهزة الجوّالة كما هو الحال في النسخة المخصَّصة لأجهزة الكمبيوتر. وإذا لم يكن من الممكن توفير مجموعة الروابط نفسها في نسخة الموقع المخصَّصة للأجهزة الجوّالة، تأكَّد من تضمينها في ملف خريطة الموقع. لا يفهرس محرّك بحث Google سوى نُسخ الصفحات المخصَّصة للأجهزة الجوّالة، وبالتالي فإن تقييد الروابط المعروضة فيها قد يؤدي إلى إبطاء اكتشاف الصفحات الجديدة.
إجراءات غير محبَّذة:
- أن ترسل خريطة الموقع غير المعدّلة نفسها عدة مرات يوميًا
- أن تتوقع أنّ Googlebot سيزحف إلى كل محتوى خريطة الموقع أو أنّه سيزحف إليه على الفور، فخرائط الموقع ليست شرطًا أساسيًا، بل تشكّل اقتراحات مفيدة لبرنامج Googlebot
- تضمين عناوين URL التي لا تريدها أن تظهر في محرّك بحث Google في خرائط الموقع الإلكتروني: يمكن أن يؤدي هذا الإجراء إلى إهدار ميزانية الزحف على الصفحات التي لا تريد فهرستها.
تحسين كفاءة الزحف إلى موقعك الإلكتروني
زيادة سرعة تحميل الصفحة
تتأثّر عملية زحف Google بعدّة عوامل، وهي معدّل نقل البيانات والوقت وتوفُّر Googlebot. وفي حال كان خادمك يستجيب للطلبات بشكل أسرع، قد نتمكن من الزحف إلى المزيد من الصفحات على موقعك الإلكتروني. يريد Google الزحف إلى محتوى عالي الجودة فقط، لذلك لن تؤدي زيادة سرعة الصفحات ذات الجودة المنخفضة إلى تشجيع Googlebot على الزحف إلى مزيد من الصفحات على موقعك الإلكتروني. وفي المقابل، إذا كنا نعتقد أنّه يفوتنا الزحف إلى محتوى عالي الجودة على موقعك، من المرجح أن نزيد ميزانية الزحف لموقعك كي تزحف برامجنا إلى ذلك المحتوى.
إليك طريقة تحسين صفحاتك ومواردك لتعزيز عملية الزحف:
- امنع Googlebot من تحميل الموارد الكبيرة وغير المهمة باستخدام ملف robots.txt. احرص على حظر الموارد غير المهمة فقط، أي الموارد التي ليست أساسية لفهم معنى الصفحة (مثل الصور الواردة لأغراض الزينة).
- تأكَّد من أنّ تحميل صفحاتك يتم بسرعة.
- تجنَّب استخدام سلاسل إعادة التوجيه الطويلة التي تؤثر سلبًا في عملية الزحف.
- يجب الأخذ في الاعتبار الوقت اللازم للاستجابة لطلبات الخادم والوقت اللازم لعرض الصفحات، بما في ذلك وقت التحميل والتنفيذ للموارد المضمّنة، مثل الصور والنصوص البرمجية. ويجب الانتباه إلى الموارد الكبيرة أو البطيئة المطلوبة للفهرسة.
تحديد التغييرات التي تطرأ على المحتوى باستخدام رموز حالة HTTP
يتيح Google بشكل عام استخدام العنوانَين If-Modified-Since
وIf-None-Match
لطلبات HTTP في الزحف. ولا ترسل برامج الزحف من Google العناوين مع كل محاولات الزحف، بل يعتمد ذلك على حالة الاستخدام للطلب (على سبيل المثال، يزيد احتمال ضبط AdsBot لعنوانَي If-Modified-Since
وIf-None-Match
لطلبات HTTP). إذا أرسلَت برامج الزحف الخاصة بنا العنوان If-Modified-Since
، تكون قيمة العنوان مطابقة للتاريخ والوقت اللذَين تم فيهما الزحف إلى المحتوى لآخر مرة. استنادًا إلى تلك القيمة، قد يختار الخادم عرض
الرمز 304 (Not Modified)
لحالة HTTP بدون نص للاستجابة، وسيعيد Google في تلك الحالة
استخدام نسخة المحتوى التي زحف إليها في آخر مرة. إذا كان المحتوى أحدث من التاريخ
الذي حدّده برنامج الزحف في عنوان If-Modified-Since
، قد يعرض الخادم
الرمز 200 (OK)
لحالة HTTP مع نص الاستجابة.
بصرف النظر عن عناوين الطلبات، يمكنك إرسال الرمز 304 (Not Modified)
لحالة HTTP بدون نص استجابة لأي طلبات من Googlebot إذا لم يكُن المحتوى قد تغيّر منذ
آخر مرة زار فيها Googlebot عنوان URL. وسيؤدي ذلك إلى تقليل الوقت المطلوب المعالجة والحد من استهلاك الموارد على الخادم الخاص بك،
ما قد يؤدي بشكل غير مباشر إلى تحسين كفاءة الزحف.
إخفاء عناوين URL التي لا تريدها أن تظهر في نتائج البحث
قد يؤدي إهدار موارد الخادم على صفحات غير ضرورية إلى الحدّ من نشاط الزحف من الصفحات المهمة بالنسبة إليك، ما قد يؤدي بدوره إلى حدوث تأخير كبير في اكتشاف محتوى مهم جديد أو معدَّل على الموقع الإلكتروني.
عند عرض العديد من عناوين URL التي لا تريد أن يزحف إليها Google على موقعك الإلكتروني، قد يؤثر ذلك سلبًا في عملية الزحف إلى الموقع الإلكتروني وفهرسته. وتندرج عناوين URL هذه عادةً ضمن الفئات التالية:
- البحث المتعدّد الأوجه ومعرّفات الجلسات: يكون عادةً البحث المتعدّد الأوجه محتوًى مكرّرًا من الموقع الإلكتروني، فيما لا توفر معرّفات الجلسات ومعلَمات عناوين URL الأخرى التي ترتّب أو تفلتر الصفحة محتوًى جديدًا. استخدِم ملف robots.txt لحظر صفحات البحث المتعدّد الأوجه.
- المحتوى المكرّر: يمكنك مساعدة Google في التعرّف على المحتوى المكرّر لتجنُّب الزحف غير الضروري.
- صفحات خطأ
soft 404
: اعرض رمز خطأ404
عندما لا تعود الصفحة متوفّرة. - الصفحات المخترَقة: احرص على مراجعة تقرير "مشاكل الأمان" وحلّ المشاكل في أي صفحات مخترَقة تعثر عليها أو إزالة تلك الصفحات.
- المساحات اللامتناهية والخوادم الوكيلة: احظر الزحف إليها باستخدام ملف robots.txt.
- المحتوى المنخفض الجودة والمحتوى غير المرغوب فيه: من المفيد تجنّبه.
- صفحات سلة التسوّق وصفحات التمرير اللانهائي والصفحات التي تؤدي إلى اتخاذ إجراء (مثل صفحات "الاشتراك" أو "الشراء الآن")
إجراءات محبَّذة:
- استخدِم ملف robots.txt إذا كنت لا تريد أن يزحف Google إلى مورد أو صفحة على الإطلاق.
- إذا تمت إعادة استخدام مورد شائع على عدة صفحات، (مثل صورة مشتركة أو ملف JavaScript)، أشِر إلى المورد باستخدام عنوان URL نفسه في كل صفحة كي يتمكّن Google من تخزين المورد نفسه مؤقتًا وإعادة استخدامه بدون الحاجة إلى طلبه عدة مرات.
إجراءات غير محبَّذة:
- لا تضِف أو تزِل صفحات أو أدلة من ملف robots.txt بانتظام كطريقة لإعادة تخصيص ميزانية الزحف الخاصة بموقعك الإلكتروني. استخدِم ملف robots.txt فقط للصفحات أو الموارد التي لا تريدها أن تظهر في نتائج بحث Google على المدى الطويل.
- لا تبدِّل خرائط الموقع أو تستخدم آليات إخفاء مؤقّت أخرى بهدف إعادة تخصيص ميزانية الزحف.
معالجة عمليات الزحف الزائدة إلى موقعك الإلكتروني (حالات الطوارئ)
يتضمّن Googlebot خوارزميات لمنعه من تحميل موقعك الإلكتروني عبئًا زائدًا من خلال طلبات الزحف، ولكن إذا وجدتَ أنّ Googlebot يزيد الحِمل على موقعك الإلكتروني، يمكنك تنفيذ بعض الإجراءات.
التشخيص:
راقِب الخادم للتأكّد من أنّ Googlebot لا يزيد الحِمل على موقعك الإلكتروني من خلال طلبات الزحف الزائدة.
الحلّ:
في حالات الطوارئ، ننصح باتّباع الخطوات التالية لإبطاء معدّل زحف Googlebot إذا كان يزيد الحِمل على الموقع الإلكتروني:
- اعرض رمز الاستجابة
503
أو429
لحالة HTTP مؤقتًا لطلبات برنامج Googlebot عندما يكون الحِمل زائدًا على الخادم. سيعيد Googlebot محاولة الزحف إلى عناوين URL هذه لمدة يومين تقريبًا. يُرجى العِلم أنّ عرض رموز "عدم التوفّر" لأكثر من بضعة أيام سيؤدي إلى إبطاء أو إيقاف عملية زحف Google إلى عناوين URL على موقعك الإلكتروني بشكلٍ دائم، لذا عليك اتّباع الخطوات الإضافية التالية. -
عندما ينخفض معدّل الزحف، أوقِف عرض رمز الاستجابة
503
أو429
لحالة HTTP لطلبات الزحف، لأنّ عرض الرمز503
أو429
لفترة تتجاوز يومَين سيؤدي إلى إزالة عناوين URL هذه من الفهرس. - راقِب معدّل الزحف وسعة المضيف بمرور الوقت.
- إذا كان برنامج الزحف الذي يسبّب المشكلة هو أحد برامج زحف AdsBot، من المحتمل أن تكون قد أنشأت استهدافات للإعلانات الديناميكية على شبكة البحث لموقعك الإلكتروني الذي يحاول Google الزحف إليه. وستتكرّر عملية الزحف هذه كل 3 أسابيع. إذا لم تتوفّر لديك سعة الخادم اللازمة للتعامل مع عمليات الزحف هذه، عليك إما الحدّ من استهدافات الإعلانات أو زيادة سعة العرض.
الحقائق والمعلومات الخاطئة حول عملية الزحف
اختبِر معلوماتك حول كيفية زحف Google إلى المواقع الإلكترونية وفهرستها.
5xx
لحالة HTTP (أخطاء الخادم) أو انتهاء المهلة المحدّدة للاتصال يدلّان على عكس ذلك،
ما يؤدّي إلى خفض سرعة الزحف. ننصحك بمراقبة تقرير "إحصاءات الزحف" في Search Console وإبقاء عدد أخطاء الخادم منخفضًا.
nofollow
في ميزانية الزحف.nofollow
على عنوان URL، سيتواصل الزحف إليه في حال لم تضع صفحة أخرى على موقعك الإلكتروني أو أي صفحة على الويب علامة nofollow
على الرابط.
noindex
للتحكم في ميزانية الزحف.noindex
.
مع ذلك، يمكنك استخدام
noindex
لإبقاء المحتوى خارج الفهرس. وإذا أردت
ضمان إبقاء تلك الصفحات خارج فهرس Google، تابِع استخدام noindex
ولا تقلق بشأن ميزانية الزحف. يُرجى العِلم أيضًا بأنّه إذا تمت إزالة عناوين URL
من فهرس Google باستخدام noindex
أو غير ذلك، سيصبح بإمكان Googlebot التركيز على
عناوين URL الأخرى على موقعك الإلكتروني، أي أنّ استخدام noindex
قد يؤدي بطريقة غير مباشرة إلى إخلاء بعض ميزانية الزحف لموقعك الإلكتروني على المدى الطويل.
4xx
لحالة HTTP تؤدي إلى إهدار ميزانية الزحف.4xx
لحالة HTTP
(باستثناء 429
) لا تؤدي إلى إهدار ميزانية الزحف. وهي تعني أنّ Google حاول
الزحف إلى الصفحة ولكنّه تلقّى رمز حالة بدون أي محتوى.