กฎที่มีประโยชน์ของ robots.txt
ตัวอย่างกฎที่มีประโยชน์ของ robots.txt ที่ใช้กันทั่วไปมีดังนี้
| กฎที่มีประโยชน์ | |
|---|---|
| ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ |
โปรดทราบว่าในบางสถานการณ์ URL จากเว็บไซต์อาจยังคงได้รับการจัดทำดัชนีแม้ว่าไม่ได้มีการ Crawl ก็ตาม User-agent: * Disallow: / |
อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ (ด้วยกฎ Disallow ที่ว่างเปล่า)
|
กฎนี้อนุญาตอย่างชัดแจ้งให้ Crawler ทั้งหมดเข้าถึงทั้งเว็บไซต์ ซึ่งมีฟังก์ชันการทำงานเทียบเท่ากับการไม่มีไฟล์ robots.txt เลย หรือการใช้กฎ User-agent: * Disallow: |
| ไม่อนุญาตให้ทำการ Crawl ไดเรกทอรีและเนื้อหาในไดเรกทอรี |
เติมเครื่องหมายทับต่อท้ายชื่อไดเรกทอรีเพื่อไม่อนุญาตให้ทำการ Crawl ทั้งไดเรกทอรี User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
ไม่อนุญาตให้ทำการ Crawl หน้าเว็บเดียว |
ตัวอย่างเช่น ไม่อนุญาตหน้า User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ ยกเว้นไดเรกทอรีย่อย |
Crawler จะเข้าถึงไดเรกทอรีย่อย User-agent: * Disallow: / Allow: /public/ |
| อนุญาตการเข้าถึงแก่ Crawler เพียงตัวเดียว |
มีแค่ User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| อนุญาตการเข้าถึงให้แก่ Crawler ทั้งหมดยกเว้นตัวเดียว |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ แต่อนุญาต |
การใช้กฎนี้จะซ่อนหน้าเว็บจากผลการค้นหาของ Google Search แต่ Web Crawler User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
บล็อกรูปภาพทั้งหมดในเว็บไซต์ของคุณไม่ให้แสดงใน Google (รวมถึงทุกที่ที่รูปภาพแสดงใน Google ซึ่งรวมถึง Google รูปภาพและ Discover) |
Google ไม่สามารถจัดทําดัชนีรูปภาพและวิดีโอได้หากไม่ได้ทำการ Crawl User-agent: Googlebot-Image Disallow: / |
|
บล็อกรูปภาพบางภาพไม่ให้แสดงใน Google รูปภาพ |
เช่น ไม่อนุญาตรูปภาพ User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
ไม่อนุญาตให้ทำการ Crawl ไฟล์บางประเภท |
เช่น ไม่อนุญาตให้ทำการ Crawl ไฟล์ User-agent: Googlebot Disallow: /*.gif$ |
ใช้ไวลด์การ์ด * และ $ เพื่อจับคู่ URL ที่ลงท้ายด้วยสตริงที่เจาะจง
|
เช่น ไม่อนุญาตไฟล์ User-agent: Googlebot Disallow: /*.xls$ |
| รวม User Agent หลายรายการไว้ในกลุ่มเดียว |
การรวมกฎสำหรับ Crawler หลายตัวไว้ในกลุ่มเดียวจะทำให้ไฟล์สั้นลงและจัดการได้ง่ายขึ้น เนื่องจากกฎทั้งหมดในกลุ่มจะมีผลกับ User Agent ทุกรายการที่ระบุไว้ ซึ่งเหมือนกับการระบุ User Agent 2 ครั้งพร้อมกฎที่เกี่ยวข้อง User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |