กฎที่มีประโยชน์ของ robots.txt

ตัวอย่างกฎที่มีประโยชน์ของ robots.txt ที่ใช้กันทั่วไปมีดังนี้

กฎที่มีประโยชน์
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์	โปรดทราบว่าในบางสถานการณ์ URL จากเว็บไซต์อาจยังคงได้รับการจัดทำดัชนีแม้ว่าไม่ได้มีการ Crawl ก็ตาม หมายเหตุ: คำสั่งของกฎนี้จะไม่จับคู่กับ Crawler AdsBot ต่างๆ ซึ่งต้องระบุชื่อโปรแกรมไว้อย่างชัดแจ้ง User-agent: * Disallow: /
ไม่อนุญาตให้รวบรวมข้อมูลของไดเรกทอรีและเนื้อหาในไดเรกทอรี	เติมเครื่องหมายทับต่อท้ายชื่อไดเรกทอรีเพื่อไม่อนุญาตให้ทำการ Crawl ทั้งไดเรกทอรี ข้อควรระวัง: อย่าใช้ robots.txt เพื่อบล็อกการเข้าถึงเนื้อหาส่วนตัว ให้ใช้การตรวจสอบสิทธิ์ที่เหมาะสมแทน URL ที่ไฟล์ robots.txt ไม่อนุญาตอาจยังคงได้รับการจัดทำดัชนีโดยไม่มีการรวบรวมข้อมูล และทุกคนจะดูไฟล์ robots.txt ได้ ซึ่งอาจเปิดเผยตำแหน่งเนื้อหาส่วนตัวของคุณ User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
อนุญาตการเข้าถึงให้แก่ Crawler เพียงตัวเดียว	มีแค่ `googlebot-news` เท่านั้นที่จะรวบรวมข้อมูลทั้งเว็บไซต์ได้ User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
อนุญาตการเข้าถึงให้แก่ Crawler ทั้งหมดยกเว้นตัวเดียว	`Unnecessarybot` จะรวบรวมข้อมูลเว็บไซต์ไม่ได้ แต่บ็อตอื่นๆ ทั้งหมดจะรวบรวมได้ User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
ไม่อนุญาตให้รวบรวมข้อมูลหน้าเว็บเดียว	ตัวอย่างเช่น ไม่อนุญาตหน้า `useless_file.html` ที่ `https://example.com/useless_file.html` และ `other_useless_file.html` ในไดเรกทอรี `junk` User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ ยกเว้นไดเรกทอรีย่อย	Crawler จะเข้าถึงไดเรกทอรีย่อย `public` ได้เท่านั้น User-agent: * Disallow: / Allow: /public/
บล็อกรูปภาพบางภาพไม่ให้แสดงใน Google รูปภาพ	เช่น ไม่อนุญาตให้รวบรวมข้อมูลรูปภาพ `dogs.jpg` User-agent: Googlebot-Image Disallow: /images/dogs.jpg
บล็อกรูปภาพทั้งหมดในเว็บไซต์ของคุณไม่ให้แสดงใน Google รูปภาพ	Google ไม่สามารถจัดทําดัชนีรูปภาพและวิดีโอได้หากไม่ได้รวบรวมข้อมูล User-agent: Googlebot-Image Disallow: /
ไม่อนุญาตให้รวบรวมข้อมูลไฟล์บางประเภท	เช่น ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ `.gif` ทุกไฟล์ User-agent: Googlebot Disallow: /*.gif$
ไม่อนุญาตให้รวบรวมข้อมูลทั้งเว็บไซต์ แต่อนุญาต `Mediapartners-Google`	การใช้กฎนี้จะซ่อนหน้าเว็บของคุณจากผลการค้นหา แต่ Web Crawler `Mediapartners-Google` ยังสามารถวิเคราะห์หน้าเว็บเพื่อตัดสินใจว่าจะแสดงโฆษณาใดในเว็บไซต์ User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
ใช้ไวลด์การ์ด `*` และ `$` เพื่อจับคู่ URL ที่ลงท้ายด้วยสตริงที่เจาะจง	เช่น ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ `.xls` ทั้งหมด User-agent: Googlebot Disallow: /*.xls$