กฎที่มีประโยชน์ของ robots.txt
ตัวอย่างกฎที่มีประโยชน์ของ robots.txt ที่ใช้กันทั่วไปมีดังนี้
| กฎที่มีประโยชน์ | |
|---|---|
| ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ |
โปรดทราบว่าในบางสถานการณ์ URL จากเว็บไซต์อาจยังคงได้รับการจัดทำดัชนีแม้ว่าไม่ได้มีการ Crawl ก็ตาม User-agent: * Disallow: / |
| ไม่อนุญาตให้รวบรวมข้อมูลของไดเรกทอรีและเนื้อหาในไดเรกทอรี |
เติมเครื่องหมายทับต่อท้ายชื่อไดเรกทอรีเพื่อไม่อนุญาตให้ทำการ Crawl ทั้งไดเรกทอรี User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| อนุญาตการเข้าถึงให้แก่ Crawler เพียงตัวเดียว |
มีแค่ User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| อนุญาตการเข้าถึงให้แก่ Crawler ทั้งหมดยกเว้นตัวเดียว |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
ไม่อนุญาตให้รวบรวมข้อมูลหน้าเว็บเดียว |
ตัวอย่างเช่น ไม่อนุญาตหน้า User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
ไม่อนุญาตให้ทำการ Crawl ทั้งเว็บไซต์ ยกเว้นไดเรกทอรีย่อย |
Crawler จะเข้าถึงไดเรกทอรีย่อย User-agent: * Disallow: / Allow: /public/ |
|
บล็อกรูปภาพบางภาพไม่ให้แสดงใน Google รูปภาพ |
เช่น ไม่อนุญาตให้รวบรวมข้อมูลรูปภาพ User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
บล็อกรูปภาพทั้งหมดในเว็บไซต์ของคุณไม่ให้แสดงใน Google รูปภาพ |
Google ไม่สามารถจัดทําดัชนีรูปภาพและวิดีโอได้หากไม่ได้รวบรวมข้อมูล User-agent: Googlebot-Image Disallow: / |
|
ไม่อนุญาตให้รวบรวมข้อมูลไฟล์บางประเภท |
เช่น ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ User-agent: Googlebot Disallow: /*.gif$ |
|
ไม่อนุญาตให้รวบรวมข้อมูลทั้งเว็บไซต์ แต่อนุญาต |
การใช้กฎนี้จะซ่อนหน้าเว็บของคุณจากผลการค้นหา แต่ Web Crawler User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
ใช้ไวลด์การ์ด * และ $ เพื่อจับคู่ URL ที่ลงท้ายด้วยสตริงที่เจาะจง
|
เช่น ไม่อนุญาตให้รวบรวมข้อมูลไฟล์ User-agent: Googlebot Disallow: /*.xls$ |