يحدّد ملف robots.txt
لمحركات البحث صفحات موقعك الإلكتروني التي يمكنها الزحف إليها. يمكن أن يتسبّب إعداد robots.txt
غير الصالح في نوعَين من المشاكل:
- وقد يمنع محركات البحث من الزحف إلى الصفحات العامة، ما يؤدي إلى انخفاض مرات ظهور المحتوى في نتائج البحث.
- وقد يتسبب ذلك في زحف محركات البحث إلى صفحات قد لا تريد عرضها ضمن نتائج البحث.
كيفية تعذُّر تدقيق Lighthouse في robots.txt
يضع Lighthouse علامة على ملفات
robots.txt
غير صالحة:
وسِّع تدقيق robots.txt
غير صالح في تقريرك لمعرفة المشكلة في robots.txt
.
وتشمل الأخطاء الشائعة ما يلي:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
لا تتحقّق أداة Lighthouse من أن ملف robots.txt
في الموقع الصحيح. ولكي يعمل الملف بشكل صحيح، يجب أن يكون في جذر النطاق أو النطاق الفرعي.
كيفية حلّ المشاكل في "robots.txt
"
تأكَّد من أنّ robots.txt
لا يعرض رمز حالة HTTP 5XX.
إذا كان الخادم يعرض خطأ في الخادم (رمز حالة HTTP في 500 ثانية) لـ robots.txt
، لن تتعرّف محركات البحث على الصفحات التي يجب الزحف إليها. وقد تتوقّف هذه البرامج عن الزحف إلى موقعك الإلكتروني بالكامل، ما قد يمنع فهرسة المحتوى الجديد.
للتحقّق من رمز حالة HTTP، افتح robots.txt
في Chrome وتحقَّق من الطلب في "أدوات مطوري البرامج في Chrome".
يجب إبقاء robots.txt
أصغر من 500 كيبيبايت.
قد تتوقّف محرّكات البحث عن معالجة robots.txt
في منتصف عملية تحميل الملف إذا كان حجم الملف
أكبر من 500 كيبيبايت. يمكن أن يؤدي ذلك إلى إرباك محرّك البحث، ما يؤدي إلى زحف غير صحيح إلى موقعك الإلكتروني.
للحفاظ على صغر حجم robots.txt
، ننصحك بالتركيز بشكل أقل على الصفحات المستبعَدة بشكلٍ فردي والنمط الأوسع نطاقًا. على سبيل المثال، إذا كنت تريد حظر الزحف إلى ملفات PDF،
لا تحظر كل ملف على حدة. بدلاً من ذلك، يمكنك منع جميع عناوين URL التي تحتوي على
.pdf
باستخدام السمة disallow: /*.pdf
.
إصلاح أي أخطاء في التنسيق
- لا يُسمح في
robots.txt
إلا بالسطور والتعليقات والتوجيهات الفارغة التي تتطابق مع تنسيق "name: value". - تأكَّد من أنّ قيم
allow
وdisallow
إما فارغة أو تبدأ بـ/
أو*
. - لا تستخدِم
$
في منتصف القيمة (على سبيل المثال،allow: /file$html
).
يُرجى التأكّد من إدخال قيمة للحقل "user-agent
".
تستخدم أسماء وكلاء المستخدم لإعلام برامج زحف محركات البحث بالتوجيهات التي يجب اتباعها. عليك توفير قيمة لكل مثيل من user-agent
حتى تعرف محرّكات البحث ما إذا كان يجب اتّباع مجموعة التوجيهات المرتبطة أم لا.
لتحديد زاحف خاص بمحرّك بحث، استخدِم اسم وكيل مستخدم من القائمة المنشورة الخاصة به. (على سبيل المثال، إليك قائمة Google بوكلاء المستخدم المستخدَمة في الزحف.)
استخدِم *
لمطابقة جميع برامج الزحف التي لا تتطابق معها.
user-agent: disallow: /downloads/
لم يتم تحديد وكيل مستخدم.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
يتم تحديد وكيل مستخدم عام ووكيل مستخدم magicsearchbot
.
تأكَّد من عدم توفُّر أوامر allow
أو disallow
قبل user-agent
.
تحدّد أسماء وكلاء المستخدم أقسام ملف robots.txt
. وتستخدم برامج زحف محركات البحث هذه الأقسام لتحديد التوجيهات التي يجب اتباعها. ويعني وضع توجيه قبل اسم وكيل المستخدم الأول أنه لن تتّبعه أي برامج زحف.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
لن يقرأ أي زاحف من محرّك البحث توجيه disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
لا يُسمح لجميع محرّكات البحث بالزحف إلى المجلد /downloads
.
تتبع برامج زحف محركات البحث الأوامر في القسم التي تتضمن اسم وكيل المستخدم الأكثر تحديدًا. على سبيل المثال، إذا كان لديك توجيهات
user-agent: *
وuser-agent: Googlebot-Image
، سيتّبع برنامج "صور Googlebot"
التوجيهات الواردة في القسم user-agent: Googlebot-Image
فقط.
توفير عنوان URL كامل في sitemap
تُعدّ ملفات Sitemap طريقة رائعة تتيح لمحركات البحث التعرّف على الصفحات المتوفرة على موقعك الإلكتروني. يتضمن ملف Sitemap بشكل عام قائمة بعناوين URL على موقعك الإلكتروني، بالإضافة إلى معلومات حول آخر تم تغييرها.
إذا اخترت إرسال ملف Sitemap باستخدام robots.txt
، احرص على استخدام عنوان URL كامل.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml