วิธีที่ Google ตีความข้อกําหนดของ robots.txt
Crawler อัตโนมัติของ Google รองรับโปรโตคอลการยกเว้นสำหรับโรบ็อต (Robots Exclusion Protocol หรือ REP) ซึ่งหมายความว่าก่อนที่จะทำการ Crawl เว็บไซต์ใด Crawler ของ Google จะดาวน์โหลดและแยกวิเคราะห์ไฟล์ robots.txt ของเว็บไซต์ดังกล่าว เพื่อดึงข้อมูลว่าส่วนใดของเว็บไซต์ที่อาจทำการ Crawl ได้ REP ใช้ไม่ได้กับ Crawler ของ Google ที่ผู้ใช้ควบคุม (เช่น การสมัครใช้บริการฟีด) หรือ Crawler ที่ใช้เพื่อเพิ่มความปลอดภัยของผู้ใช้ (เช่น การวิเคราะห์มัลแวร์)
หน้านี้อธิบายการตีความ REP ของ Google สำหรับร่างมาตรฐานต้นฉบับ โปรดดู RFC 9309
ไฟล์ robots.txt คืออะไร
หากไม่ต้องการให้ Crawler เข้าถึงส่วนต่างๆ ของเว็บไซต์ คุณสร้างไฟล์ robots.txt ที่มีกฎที่เหมาะสมได้ ไฟล์ robots.txt เป็นไฟล์ข้อความอย่างง่ายที่มีกฎซึ่งระบุว่าส่วนใดของเว็บไซต์ที่ Crawler สามารถเข้าถึงได้ เช่น ไฟล์ robots.txt สําหรับ example.com อาจมีลักษณะดังนี้
# This robots.txt file controls crawling of URLs under https://example.com. # All crawlers are disallowed to crawl files in the "includes" directory, such # as .css, .js, but Google needs them for rendering, so Googlebot is allowed # to crawl them. User-agent: * Disallow: /includes/ User-agent: Googlebot Allow: /includes/ Sitemap: https://example.com/sitemap.xml
หากคุณเพิ่งใช้ robots.txt ให้เริ่มต้นด้วยการอ่านข้อมูลเบื้องต้นเกี่ยวกับ robots.txt นอกจากนี้คุณยังดูเคล็ดลับในการสร้างไฟล์ robots.txt ได้อีกด้วย
ตำแหน่งไฟล์และช่วงความถูกต้อง
คุณต้องวางไฟล์ robots.txt ในไดเรกทอรีระดับบนสุดของเว็บไซต์ โดยใช้โปรโตคอลที่รองรับ URL ของไฟล์ robots.txt คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ (เช่นเดียวกับ URL อื่นๆ) ในกรณีที่ใช้ Google Search โปรโตคอลที่รองรับ ได้แก่ HTTP, HTTPS และ FTP ใน HTTP และ HTTPS, Crawler จะดึงไฟล์ robots.txt ที่มีคำขอ GET
แบบไม่มีเงื่อนไขของ HTTP และใน FTP, Crawler จะใช้คำสั่ง RETR (RETRIEVE)
มาตรฐาน โดยใช้การเข้าสู่ระบบแบบไม่ระบุชื่อ
กฎที่ระบุไว้ในไฟล์ robots.txt จะใช้เฉพาะกับโฮสต์ โปรโตคอล และหมายเลขพอร์ตที่โฮสต์ไฟล์ robots.txt เท่านั้น
ตัวอย่าง URL ที่ถูกต้องของ robots.txt
ตารางต่อไปนี้แสดงตัวอย่าง URL ของ robots.txt และเส้นทาง URL ที่ถูกต้อง คอลัมน์ที่ 1 มี URL ของไฟล์ robots.txt และคอลัมน์ที่ 2 มีโดเมนที่ไฟล์ robots.txt จะมีผลและจะไม่มีผล
ตัวอย่าง URL ของ robots.txt | |
---|---|
https://example.com/robots.txt |
ตัวอย่างนี้เป็นกรณีทั่วไป ซึ่งใช้ไม่ได้กับโดเมนย่อย โปรโตคอล หรือหมายเลขพอร์ตอื่นๆ แต่ใช้ได้กับทุกไฟล์ที่อยู่ในไดเรกทอรีย่อยทั้งหมดของโฮสต์ โปรโตคอล และหมายเลขพอร์ตเดียวกัน ใช้ได้กับ
|
https://www.example.com/robots.txt |
robots.txt ในโดเมนย่อยใช้ได้เฉพาะกับโดเมนย่อยนั้นๆ
ใช้ได้กับ
ใช้ไม่ได้กับ
|
https://example.com/folder/robots.txt |
ไม่ใช่ไฟล์ robots.txt ที่ถูกต้อง โปรแกรมรวบรวมข้อมูลไม่ตรวจหาไฟล์ robots.txt ในไดเรกทอรีย่อย |
https://www.exämple.com/robots.txt |
IDN เทียบเท่ากับเวอร์ชัน Punycode ดู RFC 3492 เพิ่มเติม ใช้ได้กับ
ใช้ไม่ได้กับ
|
ftp://example.com/robots.txt |
ใช้ได้กับ
ใช้ไม่ได้กับ
|
https://212.96.82.21/robots.txt |
robots.txt ซึ่งมีที่อยู่ IP เป็นชื่อโฮสต์ใช้ได้เฉพาะสำหรับการ Crawl ที่มีที่อยู่ IP นั้นเป็นชื่อโฮสต์ robots.txt ใช้กับทุกเว็บไซต์ที่โฮสต์ในที่อยู่ IP นั้นโดยอัตโนมัติไม่ได้ (แม้ว่าอาจมีการใช้ไฟล์นั้นร่วมกันก็ตาม ซึ่งในกรณีนี้ไฟล์จะใช้ได้ภายใต้ชื่อโฮสต์ที่ใช้ร่วมกันด้วย)
ใช้ได้กับ:
ใช้ไม่ได้กับ
|
https://example.com:443/robots.txt |
หมายเลขพอร์ตมาตรฐาน ( ใช้ได้กับ
ใช้ไม่ได้กับ
|
https://example.com:8181/robots.txt |
ไฟล์ robots.txt ในหมายเลขพอร์ตที่ไม่ใช่มาตรฐานจะใช้ได้เฉพาะสำหรับเนื้อหาที่มีให้ผ่านหมายเลขพอร์ตนั้น
ใช้ได้กับ:
ใช้ไม่ได้กับ
|
การจัดการข้อผิดพลาดและรหัสสถานะ HTTP
เมื่อส่งคําขอไฟล์ robots.txt รหัสสถานะ HTTP ของการตอบสนองของเซิร์ฟเวอร์จะมีผลต่อวิธีที่ Crawler ของ Google ใช้ไฟล์ robots.txt ตารางต่อไปนี้สรุปวิธีที่ Googlebot พิจารณาไฟล์ robots.txt สําหรับรหัสสถานะ HTTP ต่างๆ
การจัดการข้อผิดพลาดและรหัสสถานะ HTTP | |
---|---|
2xx (success) |
รหัสสถานะ HTTP ที่ส่งสัญญาณแจ้งว่าสำเร็จจะทำให้ Crawler ของ Google ประมวลผลไฟล์ robots.txt ตามที่เซิร์ฟเวอร์ให้ไว้ |
3xx (redirection) |
Google ติดตามการเปลี่ยนเส้นทางอย่างน้อย 5 ครั้งตามที่ RFC 1945 กำหนด จากนั้นจึงหยุดและถือว่าเป็น Google จะไม่ติดตามการเปลี่ยนเส้นทางเชิงตรรกะในไฟล์ robots.txt (เฟรม, JavaScript หรือการเปลี่ยนเส้นทางแบบ Meta Refresh) |
4xx (client errors) |
Crawler ของ Google จะจัดการกับข้อผิดพลาด |
5xx (server errors) |
เนื่องจากเซิร์ฟเวอร์ให้การตอบสนองคําขอ robots.txt ที่แน่นอนกับ Google ไม่ได้ Google จึงตีความข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์
หากคุณจําเป็นต้องระงับการ Crawl ชั่วคราว เราขอแนะนําให้แสดงรหัสสถานะ HTTP
หากเราระบุได้ว่ามีการกำหนดค่าเว็บไซต์อย่างไม่ถูกต้องให้แสดงรหัสสถานะ |
ข้อผิดพลาดอื่นๆ | ไฟล์ robots.txt ที่ระบบดึงข้อมูลไม่ได้เพราะมีปัญหาเกี่ยวกับ DNS หรือเครือข่าย เช่น หมดเวลา การตอบสนองที่ไม่ถูกต้อง การเชื่อมต่อที่รีเซ็ต/ขัดข้อง ข้อผิดพลาดจากการแบ่งข้อมูลเป็นส่วนย่อยๆ ของ HTTP ถือว่าเป็นข้อผิดพลาดเกี่ยวกับเซิร์ฟเวอร์ |
การแคช
โดยทั่วไประบบจะแคชเนื้อหาของ robots.txt ไว้ไม่เกิน 24 ชั่วโมง แต่อาจแคชนานขึ้นในกรณีที่รีเฟรชเวอร์ชันที่แคชไม่ได้ (เช่น เพราะหมดเวลาหรือมีข้อผิดพลาด 5xx
) โปรแกรมรวบรวมข้อมูลต่างๆ อาจใช้การตอบสนองที่แคชไว้ร่วมกัน
Google อาจเพิ่มหรือลดระยะเวลาในการแคชตามส่วนหัว HTTP การควบคุมแคชตามระยะเวลาสูงสุด
รูปแบบไฟล์
ไฟล์ robots.txt ต้องเป็นไฟล์ข้อความธรรมดาที่เข้ารหัส UTF-8 และต้องแยกบรรทัดด้วย CR
, CR/LF
หรือ LF
Google จะข้ามบรรทัดที่ไม่ถูกต้องในไฟล์ robots.txt รวมถึง Unicode Byte Order Mark (BOM) ที่ตอนต้นของไฟล์ robots.txt และจะใช้เฉพาะบรรทัดที่ถูกต้อง ตัวอย่างเช่น หากเนื้อหาที่ดาวน์โหลดมาเป็น HTML แทนที่จะเป็นกฎของ robots.txt สิ่งที่จะเกิดขึ้นคือ Google จะพยายามแยกวิเคราะห์เนื้อหาและเรียกดูกฎ และจะข้ามเนื้อหาอื่น
ในทํานองเดียวกัน หากไฟล์ robots.txt ไม่ได้เข้ารหัสอักขระแบบ UTF-8 ไว้ Google อาจข้ามอักขระที่ไม่ได้อยู่ในช่วง UTF-8 ซึ่งอาจทำให้การถอดความหมายกฎของ robots.txt ไม่ถูกต้อง
ขณะนี้ Google บังคับใช้ขีดจำกัดของขนาดไฟล์ robots.txt ไว้ที่ 500 กิบิไบต์ (KiB) ระบบจะข้ามเนื้อหาที่เกินขนาดไฟล์สูงสุด คุณลดขนาดไฟล์ robots.txt ได้โดยรวมกฎที่จะทำให้ไฟล์ robots.txt มีขนาดใหญ่เกินไปเข้าด้วยกัน เช่น วางเนื้อหาที่ยกเว้นไว้ในไดเรกทอรีแยกต่างหาก
ไวยากรณ์
บรรทัดที่ใช้ได้ของ robots.txt ประกอบด้วยเขตข้อมูล เครื่องหมายโคลอน และค่า ไม่บังคับว่าต้องมีการเว้นวรรค แต่แนะนำให้มีเพื่อให้อ่านง่ายขึ้น ระบบจะข้ามการเว้นวรรคที่ส่วนต้นและส่วนท้ายของบรรทัด หากต้องการใส่คำอธิบาย ให้ใส่อักขระ #
ไว้ข้างหน้า โปรดทราบว่าระบบจะข้ามทุกอย่างที่อยู่หลังอักขระ #
รูปแบบทั่วไปคือ <field>:<value><#optional-comment>
Google รองรับฟิลด์ต่อไปนี้ (ไม่รองรับฟิลด์อื่นๆ เช่น crawl-delay
)
user-agent
: ระบุว่ากฎใช้กับ Crawler ใดallow
: เส้นทาง URL ที่อาจมีการรวบรวมข้อมูลได้disallow
: เส้นทาง URL ที่ต้องไม่มีการรวบรวมข้อมูลsitemap
: URL แบบเต็มของแผนผังเว็บไซต์
ฟิลด์ allow
และ disallow
เรียกอีกอย่างว่ากฎ (หรือที่เรียกว่าคำสั่ง) กฎเหล่านี้จะระบุในรูปแบบ rule: [path]
ซึ่งจะมี [path]
หรือไม่มีก็ได้ โดยค่าเริ่มต้น Crawler ที่กำหนดไม่มีข้อจำกัดในการ Crawl Crawler จะไม่สนใจกฎที่ไม่มี [path]
ค่า [path]
(หากระบุ) จะมาจากรากของเว็บไซต์ที่ดึงไฟล์ robots.txt มา (โดยใช้โปรโตคอล หมายเลขพอร์ต ชื่อโฮสต์ และชื่อโดเมนเดียวกัน)
ค่าเส้นทางต้องขึ้นต้นด้วย /
เพื่อกำหนดว่าเป็นราก และคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ ดูข้อมูลเพิ่มเติมเกี่ยวกับการจับคู่ URL ตามค่าของเส้นทาง
user-agent
บรรทัด user-agent
ระบุว่ากฎใช้กับโปรแกรมรวบรวมข้อมูลใด โปรดดูรายการสตริง User Agent ทั้งหมดที่ใช้ได้ในไฟล์ robots.txt จาก Crawler และสตริง User Agent ของ Google
ค่าของบรรทัด user-agent
ไม่คํานึงถึงตัวพิมพ์เล็กหรือใหญ่
disallow
กฎ disallow
ระบุเส้นทางที่ไม่อนุญาตการเข้าถึงสําหรับ Crawler ที่กําหนดโดยบรรทัด user-agent
ซึ่งจัดกลุ่มไว้กับกฎ disallow
Crawler จะข้ามกฎที่ไม่มีเส้นทาง
Google ไม่สามารถจัดทําดัชนีเนื้อหาของหน้าเว็บที่ไม่ได้รับอนุญาตให้ทำการ Crawl แต่อาจยังจัดทําดัชนี URL และแสดง URL ในผลการค้นหาโดยไม่มีตัวอย่างข้อมูล ดูวิธีบล็อกการจัดทำดัชนี
ค่าของกฎ disallow
จะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
การใช้งาน
disallow: [path]
allow
กฎ allow
ระบุเส้นทางที่ Crawler ที่กำหนดจะเข้าถึงได้ ระบบจะข้ามกฎเมื่อไม่มีการระบุเส้นทาง
ค่าของกฎ allow
จะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
การใช้งาน
allow: [path]
sitemap
Google, Bing และเครื่องมือค้นหาหลักอื่นๆ รองรับเขตข้อมูล sitemap
ใน robots.txt ตามที่จำกัดความโดย sitemaps.org
ค่าของเขตข้อมูล sitemap
จะคำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่
การใช้งาน
sitemap: [absoluteURL]
บรรทัด [absoluteURL]
จะชี้ไปยังตำแหน่งของแผนผังเว็บไซต์หรือไฟล์ดัชนีแผนผังเว็บไซต์
ต้องเป็น URL ที่สมบูรณ์ในตัวเอง โดยมีโปรโตคอลกับโฮสต์ และไม่จำเป็นต้องมีการเข้ารหัส URL URL ไม่จำเป็นต้องอยู่ในโฮสต์เดียวกันกับไฟล์ robots.txt คุณสามารถระบุเขตข้อมูล sitemap
ได้หลายครั้ง เขตข้อมูล Sitemap ไม่ได้ผูกกับ User Agent ที่เจาะจง และ Crawler ทั้งหมดอาจติดตามได้หากไม่มีการห้ามไม่ให้ทำการ Crawl
เช่น
user-agent: otherbot disallow: /kale sitemap: https://example.com/sitemap.xml sitemap: https://cdn.example.org/other-sitemap.xml sitemap: https://ja.example.org/テスト-サイトマップ.xml
การจัดกลุ่มบรรทัดและกฎ
คุณจัดกลุ่มกฎที่ใช้กับ User Agent หลายรายการเข้าด้วยกันได้โดยทําซ้ำบรรทัด user-agent
สําหรับแต่ละ Crawler
เช่น
user-agent: a disallow: /c user-agent: b disallow: /d user-agent: e user-agent: f disallow: /g user-agent: h
ในตัวอย่างนี้มีกลุ่มกฎที่แตกต่างกัน 4 กลุ่ม ดังนี้
- กลุ่มสําหรับ User Agent "a"
- กลุ่มสำหรับ User Agent "b"
- กลุ่มสําหรับทั้ง User Agent "e" และ "f"
- กลุ่มสําหรับ User Agent "h"
สำหรับคำอธิบายทางเทคนิคของกลุ่ม โปรดดูส่วน 2.1 ของ REP
ลำดับความสำคัญของ User Agent
มีเพียงกลุ่มเดียวเท่านั้นที่ใช้ได้กับโปรแกรมรวบรวมข้อมูลหนึ่งๆ Crawler ของ Google จะระบุกลุ่มกฎที่ถูกต้องโดยค้นหากลุ่มในไฟล์ robots.txt ที่มี User Agent เจาะจงที่สุดซึ่งตรงกับ User Agent ของ Crawler ระบบจะข้ามกลุ่มอื่นๆ และจะข้ามข้อความทั้งหมดที่ไม่ตรงกัน (เช่น ทั้ง googlebot/1.2
และ googlebot*
ต่างก็เทียบเท่ากับ googlebot
) ลำดับของกลุ่มภายในไฟล์ robots.txt นั้นไม่เกี่ยวข้อง
หากมีการประกาศมากกว่า 1 กลุ่มสําหรับ User Agent ที่เจาะจง ระบบจะรวมกฎทั้งหมดจากกลุ่มที่เกี่ยวข้องกับ User Agent ที่เจาะจงไว้เป็นกลุ่มเดียวแบบภายใน ระบบจะไม่รวมกลุ่มที่เจาะจงของ User Agent และกลุ่มส่วนกลาง (*
)
ตัวอย่าง
การจับคู่เขตข้อมูล user-agent
user-agent: googlebot-news (group 1) user-agent: * (group 2) user-agent: googlebot (group 3)
ต่อไปนี้คือวิธีที่โปรแกรมรวบรวมข้อมูลจะเลือกกลุ่มที่เกี่ยวข้อง
กลุ่มที่โปรแกรมรวบรวมข้อมูลแต่ละโปรแกรมติดตาม | |
---|---|
Googlebot News |
googlebot-news ติดตามกลุ่ม 1 เพราะกลุ่ม 1 เป็นกลุ่มที่เจาะจงที่สุด
|
Googlebot (เว็บ) | googlebot ติดตามกลุ่ม 3 |
Googlebot Storebot |
Storebot-Google ติดตามกลุ่ม 2 เพราะไม่มีกลุ่ม Storebot-Google ที่เจาะจง
|
Googlebot News (เมื่อรวบรวมข้อมูลรูปภาพ) |
เมื่อรวบรวมข้อมูลรูปภาพ googlebot-news จะติดตามกลุ่ม 1
googlebot-news ไม่ทำการ Crawl รูปภาพสำหรับ Google รูปภาพ ดังนั้นจึงติดตามเฉพาะกลุ่ม 1
|
Otherbot (เว็บ) | โปรแกรมรวบรวมข้อมูลอื่นๆ ของ Google จะติดตามกลุ่ม 2 |
Otherbot (ข่าว) |
Crawler อื่นๆ ของ Google ที่รวบรวมเนื้อหาข่าว แต่ไม่ระบุว่าเป็น googlebot-news จะติดตามกลุ่ม 2 แม้ว่าจะมีรายการสำหรับ Crawler ที่เกี่ยวข้อง แต่รายการนั้นจะใช้ได้ก็ต่อเมื่อจับคู่ตรงกันเท่านั้น
|
การจัดกลุ่มกฎ
หากในไฟล์ robots.txt มีหลายกลุ่มที่มีความเกี่ยวข้องกับ User Agent ที่เจาะจง Crawler ของ Google จะรวมกลุ่มแบบภายใน เช่น
user-agent: googlebot-news disallow: /fish user-agent: * disallow: /carrots user-agent: googlebot-news disallow: /shrimp
โปรแกรมรวบรวมข้อมูลจะจัดกลุ่มกฎตาม User Agent แบบภายใน เช่น
user-agent: googlebot-news disallow: /fish disallow: /shrimp user-agent: * disallow: /carrots
โปรแกรมแยกวิเคราะห์ robots.txt จะไม่สนใจกฎอื่นใดที่ไม่ใช่ allow
, disallow
และ user-agent
ซึ่งหมายความว่า ระบบจะถือว่าตัวอย่างข้อมูล robots.txt ต่อไปนี้เป็น 1 กลุ่ม และด้วยเหตุนี้ทั้ง user-agent
a
และ b
จะได้รับผลกระทบจากกฎ disallow: /
ดังนี้
user-agent: a sitemap: https://example.com/sitemap.xml user-agent: b disallow: /
เมื่อโปรแกรมรวบรวมข้อมูลประมวลผลกฎของ robots.txt ก็จะไม่สนใจบรรทัด sitemap
ตัวอย่างเช่น โปรแกรมรวบรวมข้อมูลจะเข้าใจตัวอย่างข้อมูล robots.txt ก่อนหน้าดังนี้
user-agent: a user-agent: b disallow: /
การจับคู่ URL ตามค่าเส้นทาง
Google ใช้ค่าเส้นทางในกฎ allow
และ disallow
เป็นพื้นฐานในการพิจารณาว่ากฎมีผลกับ URL หนึ่งๆ ในเว็บไซต์หรือไม่ ซึ่งทํางานโดยเปรียบเทียบกฎกับคอมโพเนนต์เส้นทางของ URL ที่ Crawler กําลังพยายามดึงข้อมูล
อาจมีการรวมอักขระ ASCII ที่ไม่ใช่แบบ 7 บิตในเส้นทางเป็นอักขระ UTF-8 หรืออักขระที่เข้ารหัส UTF-8 แบบกำหนดสัญลักษณ์เปอร์เซ็นต์เป็นอักขระหลีกตามที่ระบุใน RFC 3986
Google, Bing และเครื่องมือค้นหาหลักอื่นๆ รองรับไวลด์การ์ดเพียงบางรูปแบบสําหรับค่าเส้นทาง อักขระไวลด์การ์ด ได้แก่
*
กำหนดอินสแตนซ์ของอักขระที่ถูกต้องตั้งแต่ 0 รายการขึ้นไป$
กำหนดส่วนท้ายของ URL
ตารางต่อไปนี้แสดงให้เห็นว่าอักขระไวลด์การ์ดที่แตกต่างกันมีผลต่อการแยกวิเคราะห์อย่างไร
ตัวอย่างเส้นทางที่จับคู่กัน | |
---|---|
/ |
จับคู่รากและ URL ระดับล่าง |
/* |
เทียบเท่ากับ / ระบบละเว้นไวลด์การ์ดปิดท้าย |
/$ |
จับคู่เฉพาะราก อนุญาตให้มีการรวบรวมข้อมูล URL ระดับล่างได้ |
/fish |
จับคู่เส้นทางใดก็ตามที่ขึ้นต้นด้วย เส้นทางที่ตรงกัน
ไม่จับคู่กับ
|
/fish* |
เทียบเท่ากับ เส้นทางที่ตรงกัน
ไม่จับคู่กับ
|
/fish/ |
จับคู่กับอะไรก็ได้ในโฟลเดอร์ เส้นทางที่ตรงกัน
ไม่จับคู่กับ
|
/*.php |
จับคู่เส้นทางใดก็ตามที่มี เส้นทางที่ตรงกัน
ไม่จับคู่กับ
|
/*.php$ |
จับคู่เส้นทางซึ่งลงท้ายด้วย เส้นทางที่ตรงกัน
ไม่จับคู่กับ
|
/fish*.php |
จับคู่เส้นทางใดก็ตามที่มี เส้นทางที่ตรงกัน
ไม่จับคู่กับ
|
ลำดับความสำคัญของกฎ
Crawler จะใช้กฎที่เจาะจงที่สุดตามความยาวของเส้นทางกฎเมื่อมีการจับคู่กฎ robots.txt กับ URL ในกรณีที่กฎขัดแย้งกัน ซึ่งรวมถึงกฎที่มีไวลด์การ์ด Google จะใช้กฎที่เข้มงวดน้อยที่สุด
ตัวอย่างต่อไปนี้จะแสดงให้เห็นว่ากฎใดที่โปรแกรมรวบรวมข้อมูลของ Google จะนําไปใช้กับ URL หนึ่งๆ
กรณีตัวอย่าง | |
---|---|
https://example.com/page |
allow: /p disallow: /
กฎที่มีผล: |
https://example.com/folder/page |
allow: /folder disallow: /folder
กฎที่มีผล: |
https://example.com/page.htm |
allow: /page disallow: /*.htm
กฎที่เกี่ยวข้อง: |
https://example.com/page.php5 |
allow: /page disallow: /*.ph
กฎที่มีผล: |
https://example.com/ |
allow: /$ disallow: /
กฎที่มีผล: |
https://example.com/page.htm |
allow: /$ disallow: /
กฎที่มีผล: |