กฎที่มีประโยชน์ของ robots.txt

ตัวอย่างกฎที่มีประโยชน์ของ robots.txt ที่ใช้กันทั่วไปมีดังนี้

กฎที่มีประโยชน์
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์

โปรดทราบว่าในบางสถานการณ์ URL จากเว็บไซต์อาจยังคงได้รับการจัดทำดัชนีแม้ว่าไม่ได้มีการ Crawl ก็ตาม

User-agent: *
Disallow: /
อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ (ด้วยกฎ Disallow ที่ว่างเปล่า)

กฎนี้อนุญาตอย่างชัดแจ้งให้ Crawler ทั้งหมดเข้าถึงทั้งเว็บไซต์ ซึ่งมีฟังก์ชันการทำงานเทียบเท่ากับการไม่มีไฟล์ robots.txt เลย หรือการใช้กฎ Allow: /

User-agent: *
Disallow:
ไม่อนุญาตให้ทำการ Crawl ไดเรกทอรีและเนื้อหาในไดเรกทอรี

เติมเครื่องหมายทับต่อท้ายชื่อไดเรกทอรีเพื่อไม่อนุญาตให้ทำการ Crawl ทั้งไดเรกทอรี

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

ไม่อนุญาตให้ทำการ Crawl หน้าเว็บเดียว

ตัวอย่างเช่น ไม่อนุญาตหน้า useless_file.html ที่ https://example.com/useless_file.html และ other_useless_file.html ในไดเรกทอรี junk

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ ยกเว้นไดเรกทอรีย่อย

Crawler จะเข้าถึงไดเรกทอรีย่อย public ได้เท่านั้น

User-agent: *
Disallow: /
Allow: /public/
อนุญาตการเข้าถึงแก่ Crawler เพียงตัวเดียว

มีแค่ Googlebot-News เท่านั้นที่จะรวบรวมข้อมูลทั้งเว็บไซต์ได้

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
อนุญาตการเข้าถึงให้แก่ Crawler ทั้งหมดยกเว้นตัวเดียว

Unnecessarybot จะทำการ Crawl เว็บไซต์ไม่ได้ แต่บ็อตอื่นๆ ทั้งหมดจะทำการ Crawl ได้

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ แต่อนุญาต Storebot-Google

การใช้กฎนี้จะซ่อนหน้าเว็บจากผลการค้นหาของ Google Search แต่ Web Crawler Storebot-Google จะยังคงวิเคราะห์เพื่อแสดงผลิตภัณฑ์ของคุณใน Google Shopping ได้

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

บล็อกรูปภาพทั้งหมดในเว็บไซต์ของคุณไม่ให้แสดงใน Google (รวมถึงทุกที่ที่รูปภาพแสดงใน Google ซึ่งรวมถึง Google รูปภาพและ Discover)

Google ไม่สามารถจัดทําดัชนีรูปภาพและวิดีโอได้หากไม่ได้ทำการ Crawl

User-agent: Googlebot-Image
Disallow: /

บล็อกรูปภาพบางภาพไม่ให้แสดงใน Google รูปภาพ

เช่น ไม่อนุญาตรูปภาพ dogs.jpg

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

ไม่อนุญาตให้ทำการ Crawl ไฟล์บางประเภท

เช่น ไม่อนุญาตให้ทำการ Crawl ไฟล์ .gif ทุกไฟล์

User-agent: Googlebot
Disallow: /*.gif$
ใช้ไวลด์การ์ด * และ $ เพื่อจับคู่ URL ที่ลงท้ายด้วยสตริงที่เจาะจง

เช่น ไม่อนุญาตไฟล์ .xls ทั้งหมด:

User-agent: Googlebot
Disallow: /*.xls$
รวม User Agent หลายรายการไว้ในกลุ่มเดียว

การรวมกฎสำหรับ Crawler หลายตัวไว้ในกลุ่มเดียวจะทำให้ไฟล์สั้นลงและจัดการได้ง่ายขึ้น เนื่องจากกฎทั้งหมดในกลุ่มจะมีผลกับ User Agent ทุกรายการที่ระบุไว้ ซึ่งเหมือนกับการระบุ User Agent 2 ครั้งพร้อมกฎที่เกี่ยวข้อง

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /