قواعد مفيدة يمكن إضافتها إلى ملف robots.txt

في ما يلي بعض القواعد المفيدة والشائعة التي يمكن إضافتها إلى ملف robots.txt:

قواعد مفيدة
منع الزحف إلى جميع أقسام موقع إلكتروني معيّن

تذكّر أنّه في بعض الحالات، قد تتم فهرسة عناوين URL الخاصة بالموقع الإلكتروني حتى لو لم يتم الزحف إليها.

User-agent: *
Disallow: /
منع الزحف إلى دليل ومحتواه

يمكنك إلحاق شرطة مائلة للأمام باسم الدليل لمنع الزحف إلى الدليل بأكمله.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
السماح بوصول زاحف واحد

يُسمح لبرنامج googlebot-news وحده بالزحف إلى جميع أقسام الموقع الإلكتروني.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
السماح بالزحف لجميع برامج الزحف باستثناء زاحف واحد

لا يُسمح لبرنامج Unnecessarybot بالزحف إلى الموقع الإلكتروني، بينما يُسمح لجميع برامج التتبُّع الأخرى بالزحف إليه.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

منع الزحف إلى صفحة ويب واحدة

على سبيل المثال، يمكنك منع الزحف إلى الصفحة useless_file.html على https://example.com/useless_file.html والصفحة other_useless_file.html في دليل junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

منع الزحف إلى جميع أقسام الموقع الإلكتروني باستثناء دليل فرعي

يمكن لبرامج الزحف الوصول إلى الدليل الفرعي public.

User-agent: *
Disallow: /
Allow: /public/

حظر صورة معيّنة من الظهور في "صور بحث Google"

على سبيل المثال، يمكنك منع الزحف إلى الصورة dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

حظر كل الصور على موقعك الإلكتروني من الظهور في "صور Google‏"

لا يستطيع محرّك بحث Google فهرسة الصور والفيديوهات بدون الزحف إليها.

User-agent: Googlebot-Image
Disallow: /

منع الزحف إلى ملفات من نوع معيّن

على سبيل المثال، يمكنك منع الزحف إلى جميع ملفات .gif.

User-agent: Googlebot
Disallow: /*.gif$

منع الزحف إلى جميع أقسام موقع إلكتروني معيّن، ولكن مع السماح لبرنامج Mediapartners-Google بالزحف إليه

يؤدي هذا الإجراء إلى إخفاء صفحاتك من نتائج البحث، ولكن يظلّ بإمكان زاحف الويب Mediapartners-Google تحليلها لتحديد الإعلانات التي سيعرضها لزوّار موقعك الإلكتروني.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
استخدام حرفَي البدل * و$ لمطابقة عناوين URL التي تنتهي بسلسلة معيَّنة

على سبيل المثال، يمكنك منع الزحف إلى جميع ملفات .xls.

User-agent: Googlebot
Disallow: /*.xls$