กฎที่มีประโยชน์ของ robots.txt

ตัวอย่างกฎที่มีประโยชน์ของ robots.txt ที่ใช้กันทั่วไปมีดังนี้

กฎที่มีประโยชน์
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์

โปรดทราบว่าในบางสถานการณ์ URL จากเว็บไซต์อาจยังคงได้รับการจัดทำดัชนีแม้ว่าไม่ได้มีการ Crawl ก็ตาม

User-agent: *
Disallow: /
ไม่อนุญาตให้รวบรวมข้อมูลของไดเรกทอรีและเนื้อหาในไดเรกทอรี

เติมเครื่องหมายทับต่อท้ายชื่อไดเรกทอรีเพื่อไม่อนุญาตให้ทำการ Crawl ทั้งไดเรกทอรี

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
อนุญาตการเข้าถึงให้แก่ Crawler เพียงตัวเดียว

มีแค่ googlebot-news เท่านั้นที่จะรวบรวมข้อมูลทั้งเว็บไซต์ได้

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
อนุญาตการเข้าถึงให้แก่ Crawler ทั้งหมดยกเว้นตัวเดียว

Unnecessarybot จะรวบรวมข้อมูลเว็บไซต์ไม่ได้ แต่บ็อตอื่นๆ ทั้งหมดจะรวบรวมได้

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

ไม่อนุญาตให้รวบรวมข้อมูลหน้าเว็บเดียว

ตัวอย่างเช่น ไม่อนุญาตหน้า useless_file.html ที่ https://example.com/useless_file.html และ other_useless_file.html ในไดเรกทอรี junk

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ ยกเว้นไดเรกทอรีย่อย

Crawler จะเข้าถึงไดเรกทอรีย่อย public ได้เท่านั้น

User-agent: *
Disallow: /
Allow: /public/

บล็อกรูปภาพบางภาพไม่ให้แสดงใน Google รูปภาพ

เช่น ไม่อนุญาตให้รวบรวมข้อมูลรูปภาพ dogs.jpg

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

บล็อกรูปภาพทั้งหมดในเว็บไซต์ของคุณไม่ให้แสดงใน Google รูปภาพ

Google ไม่สามารถจัดทําดัชนีรูปภาพและวิดีโอได้หากไม่ได้รวบรวมข้อมูล

User-agent: Googlebot-Image
Disallow: /

ไม่อนุญาตให้รวบรวมข้อมูลไฟล์บางประเภท

เช่น ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ .gif ทุกไฟล์

User-agent: Googlebot
Disallow: /*.gif$

ไม่อนุญาตให้รวบรวมข้อมูลทั้งเว็บไซต์ แต่อนุญาต Mediapartners-Google

การใช้กฎนี้จะซ่อนหน้าเว็บของคุณจากผลการค้นหา แต่ Web Crawler Mediapartners-Google ยังสามารถวิเคราะห์หน้าเว็บเพื่อตัดสินใจว่าจะแสดงโฆษณาใดในเว็บไซต์

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
ใช้ไวลด์การ์ด * และ $ เพื่อจับคู่ URL ที่ลงท้ายด้วยสตริงที่เจาะจง

เช่น ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ .xls ทั้งหมด

User-agent: Googlebot
Disallow: /*.xls$