قواعد مفيدة يمكن إضافتها إلى ملف robots.txt
في ما يلي بعض القواعد المفيدة والشائعة التي يمكن إضافتها إلى ملف robots.txt:
| قواعد مفيدة | |
|---|---|
| منع الزحف إلى جميع أقسام موقع إلكتروني معيّن |
تذكّر أنّه في بعض الحالات، قد تتم فهرسة عناوين URL الخاصة بالموقع الإلكتروني حتى لو لم يتم الزحف إليها. User-agent: * Disallow: / |
| منع الزحف إلى دليل ومحتواه |
يمكنك إلحاق شرطة مائلة للأمام باسم الدليل لمنع الزحف إلى الدليل بأكمله. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| السماح بوصول زاحف واحد |
يُسمح لبرنامج User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| السماح بالزحف لجميع برامج الزحف باستثناء زاحف واحد |
لا يُسمح لبرنامج User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
منع الزحف إلى صفحة ويب واحدة |
على سبيل المثال، يمكنك منع الزحف إلى الصفحة User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
منع الزحف إلى جميع أقسام الموقع الإلكتروني باستثناء دليل فرعي |
يمكن لبرامج الزحف الوصول إلى الدليل الفرعي User-agent: * Disallow: / Allow: /public/ |
|
حظر صورة معيّنة من الظهور في "صور بحث Google" |
على سبيل المثال، يمكنك منع الزحف إلى الصورة User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
حظر كل الصور على موقعك الإلكتروني من الظهور في "صور Google" |
لا يستطيع محرّك بحث Google فهرسة الصور والفيديوهات بدون الزحف إليها. User-agent: Googlebot-Image Disallow: / |
|
منع الزحف إلى ملفات من نوع معيّن |
على سبيل المثال، يمكنك منع الزحف إلى جميع ملفات User-agent: Googlebot Disallow: /*.gif$ |
|
منع الزحف إلى جميع أقسام موقع إلكتروني معيّن، ولكن مع السماح لبرنامج |
يؤدي هذا الإجراء إلى إخفاء صفحاتك من نتائج البحث، ولكن يظلّ بإمكان زاحف الويب User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
استخدام حرفَي البدل * و$ لمطابقة عناوين URL التي تنتهي بسلسلة معيَّنة
|
على سبيل المثال، يمكنك منع الزحف إلى جميع ملفات User-agent: Googlebot Disallow: /*.xls$ |