ملف robots.txt غير صالح

يحدّد ملف robots.txt لمحركات البحث صفحات موقعك الإلكتروني التي يمكنها الزحف إليها. يمكن أن يتسبّب إعداد robots.txt غير الصالح في نوعَين من المشاكل:

  • وقد يمنع محركات البحث من الزحف إلى الصفحات العامة، ما يؤدي إلى انخفاض مرات ظهور المحتوى في نتائج البحث.
  • وقد يتسبب ذلك في زحف محركات البحث إلى صفحات قد لا تريد عرضها ضمن نتائج البحث.

كيفية تعذُّر تدقيق Lighthouse في robots.txt

يضع Lighthouse علامة على ملفات robots.txt غير صالحة:

تدقيق أداة Lighthouse تعرض ملف robots.txt غير صالح.

وسِّع تدقيق robots.txt غير صالح في تقريرك لمعرفة المشكلة في robots.txt.

وتشمل الأخطاء الشائعة ما يلي:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

لا تتحقّق أداة Lighthouse من أن ملف robots.txt في الموقع الصحيح. ولكي يعمل الملف بشكل صحيح، يجب أن يكون في جذر النطاق أو النطاق الفرعي.

كيفية حلّ المشاكل في "robots.txt"

تأكَّد من أنّ robots.txt لا يعرض رمز حالة HTTP 5XX.

إذا كان الخادم يعرض خطأ في الخادم (رمز حالة HTTP في 500 ثانية) لـ robots.txt، لن تتعرّف محركات البحث على الصفحات التي يجب الزحف إليها. وقد تتوقّف هذه البرامج عن الزحف إلى موقعك الإلكتروني بالكامل، ما قد يمنع فهرسة المحتوى الجديد.

للتحقّق من رمز حالة HTTP، افتح robots.txt في Chrome وتحقَّق من الطلب في "أدوات مطوري البرامج في Chrome".

يجب إبقاء robots.txt أصغر من 500 كيبيبايت.

قد تتوقّف محرّكات البحث عن معالجة robots.txt في منتصف عملية تحميل الملف إذا كان حجم الملف أكبر من 500 كيبيبايت. يمكن أن يؤدي ذلك إلى إرباك محرّك البحث، ما يؤدي إلى زحف غير صحيح إلى موقعك الإلكتروني.

للحفاظ على صغر حجم robots.txt، ننصحك بالتركيز بشكل أقل على الصفحات المستبعَدة بشكلٍ فردي والنمط الأوسع نطاقًا. على سبيل المثال، إذا كنت تريد حظر الزحف إلى ملفات PDF، لا تحظر كل ملف على حدة. بدلاً من ذلك، يمكنك منع جميع عناوين URL التي تحتوي على .pdf باستخدام السمة disallow: /*.pdf.

إصلاح أي أخطاء في التنسيق

  • لا يُسمح في robots.txt إلا بالسطور والتعليقات والتوجيهات الفارغة التي تتطابق مع تنسيق "name: value".
  • تأكَّد من أنّ قيم allow وdisallow إما فارغة أو تبدأ بـ / أو *.
  • لا تستخدِم $ في منتصف القيمة (على سبيل المثال، allow: /file$html).

يُرجى التأكّد من إدخال قيمة للحقل "user-agent".

تستخدم أسماء وكلاء المستخدم لإعلام برامج زحف محركات البحث بالتوجيهات التي يجب اتباعها. عليك توفير قيمة لكل مثيل من user-agent حتى تعرف محرّكات البحث ما إذا كان يجب اتّباع مجموعة التوجيهات المرتبطة أم لا.

لتحديد زاحف خاص بمحرّك بحث، استخدِم اسم وكيل مستخدم من القائمة المنشورة الخاصة به. (على سبيل المثال، إليك قائمة Google بوكلاء المستخدم المستخدَمة في الزحف.)

استخدِم * لمطابقة جميع برامج الزحف التي لا تتطابق معها.

الإجراءات غير المُوصى بها
user-agent:
disallow: /downloads/

لم يتم تحديد وكيل مستخدم.

الإجراءات التي يُنصح بها
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

يتم تحديد وكيل مستخدم عام ووكيل مستخدم magicsearchbot.

تأكَّد من عدم توفُّر أوامر allow أو disallow قبل user-agent.

تحدّد أسماء وكلاء المستخدم أقسام ملف robots.txt. وتستخدم برامج زحف محركات البحث هذه الأقسام لتحديد التوجيهات التي يجب اتباعها. ويعني وضع توجيه قبل اسم وكيل المستخدم الأول أنه لن تتّبعه أي برامج زحف.

الإجراءات غير المُوصى بها
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

لن يقرأ أي زاحف من محرّك البحث توجيه disallow: /downloads.

الإجراءات التي يُنصح بها
# start of file
user-agent: *
disallow: /downloads/

لا يُسمح لجميع محرّكات البحث بالزحف إلى المجلد /downloads.

تتبع برامج زحف محركات البحث الأوامر في القسم التي تتضمن اسم وكيل المستخدم الأكثر تحديدًا. على سبيل المثال، إذا كان لديك توجيهات user-agent: * وuser-agent: Googlebot-Image، سيتّبع برنامج "صور Googlebot" التوجيهات الواردة في القسم user-agent: Googlebot-Image فقط.

توفير عنوان URL كامل في sitemap

تُعدّ ملفات Sitemap طريقة رائعة تتيح لمحركات البحث التعرّف على الصفحات المتوفرة على موقعك الإلكتروني. يتضمن ملف Sitemap بشكل عام قائمة بعناوين URL على موقعك الإلكتروني، بالإضافة إلى معلومات حول آخر تم تغييرها.

إذا اخترت إرسال ملف Sitemap باستخدام robots.txt، احرص على استخدام عنوان URL كامل.

الإجراءات غير المُوصى بها
sitemap: /sitemap-file.xml
الإجراءات التي يُنصح بها
sitemap: https://example.com/sitemap-file.xml

المراجِع