ملاحظة حول القواعد غير المتوافقة في ملف robots.txt

الثلاثاء 2 تموز (يوليو) 2019

أعلنّا بالأمس أنّ محلّل ملف robots.txt المستخدم في Google أصبح الآن مفتوح المصدر. ويُعدّ هذا الأمر حدثًا مهمًّا، لأنّه يمهّد الطريق لمزيد من المشاريع المفتوحة المصدر والمتعلّقة بمحرّك بحث Google في المستقبل. نودّ معرفة ملاحظاتك، إذ نسعى جاهدين إلى جمع الأسئلة من مطوّري البرامج ومشرفي المواقع على حدٍّ سواء. وهناك سؤال بارز يسرّنا أن نجيب عنه من خلال هذه المشاركة:
لماذا لا يتم تضمين معالج رموز خاص بقواعد أخرى، مثل crawl-delay في الرمز؟

توفّر مسودة الإنترنت التي نشرناها بالأمس بنية قابلة للتوسيع للقواعد التي ليست جزءًا من المعيار. هذا يعني أنّ بإمكان الزاحف توفير سطره الخاص، مثل unicorns: allowed. لتوضيح كيفية ظهور ذلك في المحلل اللغوي، أضفنا سطرًا شائعًا جدًا، وهو خريطة الموقع، في محلّل ملف robots.txt المفتوح المصدر الخاص بنا.

أثناء فتح مصدر مكتبة المحلل اللغوي، أجرينا تحليلاً لاستخدام قواعد robots.txt. على وجه الخصوص، ركّزنا على القواعد غير المتوافقة مع مسودة الإنترنت، مثل crawl-delay وnofollow وnoindex. بما أنّه لم يسبق لمحرّك بحث Google أن وثّق هذه القواعد، من الطبيعي أن يكون استخدامها في ما يتعلق ببرنامج Googlebot منخفضًا جدًا. وعند التعمّق أكثر، اكتشفنا أنّ استخدامها تعارَض مع القواعد الأخرى في جميع ملفات robots.txt على الإنترنت باستثناء ما نسبته ‏0.001% من هذه الملفات. هذه الأخطاء تضرّ بظهور المواقع الإلكترونية ضمن نتائج بحث Google بطرق لا نعتقد أنّ مشرفي المواقع يقصدونها.

للحفاظ على منظومة متكاملة سليمة وللاستعداد لمزيد من الإصدارات المفتوحة المصدر في المستقبل، سنلغي جميع الرموز التي تعالج القواعد غير المتوافقة وغير المنشورة (مثل noindex) وذلك في 1 أيلول (سبتمبر) 2019. ويمكن لمَن كان يعتمد على قاعدة الفهرسة noindex في ملف robots.txt الذي يتحكم في عملية الزحف أن يعتمد على خيارات بديلة، وهي:

‫noindex في علامات meta لبرامج robots: يمكن استخدام القاعدة noindex في عناوين استجابة HTTP وفي HTML، وهي الوسيلة الأكثر فعالية لإزالة عناوين URL من الفهرس عندما يكون الزحف مسموحًا به.
رمزا حالة HTTP‏ 404 و410: يعني رمزا الحالة أنّ الصفحة غير متوفرة، ما سيؤدي إلى حذف عناوين URL هذه من فهرس Google بعد الزحف إليها ومعالجتها مباشرةً.
الحماية باستخدام كلمة مرور: ما لم يتم استخدام الترميز للإشارة إلى الاشتراك أو المحتوى المحمي بنظام حظر الاشتراك غير المدفوع، سيؤدي إخفاء الصفحة خلف بوابة تسجيل الدخول بشكل عام إلى إزالتها من فهرس Google.
Disallow في robots.txt: لا يمكن لمحركات البحث فهرسة صفحات سوى تلك التي ترصدها، لذا فإن منع الزحف إلى الصفحة يعني عادةً عدم فهرسة محتواها. يمكن لمحرّك البحث أيضًا فهرسة عنوان URL استنادًا إلى روابط من صفحات أخرى، وذلك بدون الاطّلاع على المحتوى بحد ذاته، إلا أننا نهدف إلى جعل هذه الصفحات أقل ظهورًا في المستقبل.
أداة إزالة عناوين URL في Search Console: تُعدّ هذه الأداة طريقة سريعة وسهلة لإزالة عناوين URL مؤقتًا من نتائج البحث على Google.

لمزيد من الإرشادات حول كيفية إزالة المعلومات من نتائج بحث Google، يمكنك الانتقال إلى مركز المساعدة الخاص بنا. إذا كانت لديك أسئلة، يمكنك التواصل معنا على Twitter ومن خلال منتدى مشرفي المواقع الخاص بنا، سواء المنتدى المتوفّر على الإنترنت أم بلا إنترنت.

الناشر: غاري إليس

ملاحظة حول القواعد غير المتوافقة في ملف robots.txt تنظيم صفحاتك في مجموعات يمكنك حفظ المحتوى وتصنيفه حسب إعداداتك المفضّلة.

ملاحظة حول القواعد غير المتوافقة في ملف robots.txt