วันศุกร์ที่ 14 มีนาคม 2025
ไฟล์ robots.txt ช่วยให้เจ้าของเว็บไซต์มีวิธีง่ายๆ ในการควบคุมว่า Crawler จะเข้าถึงส่วนใดของเว็บไซต์ได้บ้าง
ชุมชนที่มีส่วนร่วมในการพัฒนามาตรฐานเว็บได้สร้างแท็ก meta
ของโรบ็อตในปี 1996 เพื่อช่วยเจ้าของเว็บไซต์ระบุเพิ่มเติมว่าเครื่องมือค้นหาและ Web Crawler สามารถใช้หน้าเว็บของตนได้อย่างไร เพียงไม่กี่เดือนหลังจากที่มีการเสนอแท็ก meta
สำหรับ HTML (และแท็กนี้ยังใช้ก่อนมี Google ด้วยซ้ำ) ต่อมามีการเพิ่มส่วนหัวการตอบกลับ HTTP ของ X-Robots-Tag
ระบบจะส่งคำสั่งเหล่านี้ไปพร้อมกับ URL ดังนั้น Crawler จะพิจารณาคำสั่งเหล่านี้ก็ต่อเมื่อไม่ได้ถูกบล็อกไม่ให้ทำการ Crawl URL ผ่านไฟล์ robots.txt ซึ่งรวมกันเป็นโปรโตคอลการยกเว้นสำหรับโรบ็อต (REP)
ข้อมูลเกี่ยวกับmeta
แท็ก robots
เมตาแท็ก (หรือองค์ประกอบ) เป็นวิธีรวมข้อมูลเมตาที่เครื่องสามารถอ่านได้
meta
แท็ก robots เป็นmeta
แท็ก "ประเภท" หนึ่งๆ และมีผลกับ Crawler รวมถึง Crawler ของเครื่องมือค้นหา สัญญาณที่บ่งบอกว่าเนื้อหาถูกบล็อกไม่ให้มีการจัดทำดัชนีหรือไม่ ไม่ควรไปที่ลิงก์บนหน้าเว็บเพื่อทำการ Crawl ใช่ไหม การให้ข้อมูลนี้ในหน้าเว็บโดยตรงด้วยmeta
แท็ก robots นั้นทำได้ง่ายๆ
โปรโตคอลการยกเว้นสำหรับโรบ็อตของ URL ใดก็ได้
ระบบได้สร้างส่วนหัวการตอบกลับ HTTP ของ "X-Robots-Tag
" เพื่อให้ควบคุมเนื้อหาที่ไม่ใช่ HTML ได้ในระดับเดียวกัน ส่วนหัว HTTP เหล่านี้จะถือว่าเป็นส่วนหนึ่งของ REP ด้วย
ส่วนหัวรองรับค่าเดียวกับmeta
แท็ก robots และสามารถเพิ่มลงในเนื้อหาใดก็ได้ที่แสดงทางออนไลน์
นอกจาก HTML แล้ว Google ยังรองรับการจัดทำดัชนีสำหรับเนื้อหาอื่นๆ เช่น PDF, ไฟล์เอกสาร และแม้แต่รูปภาพ
รูปแบบไฟล์ส่วนใหญ่เหล่านี้ไม่มีกลไกที่เทียบเท่ากับmeta
แท็ก ดังนั้นส่วนหัวการตอบกลับ HTTP จึงมีประโยชน์
เริ่มต้นใช้งานmeta
แท็กและส่วนหัวของโรบ็อต
ไวยากรณ์นั้นเรียบง่ายและขยายได้ โดยทั่วไปแล้ว กฎเหล่านี้จะติดตั้งใช้งานโดยนักพัฒนาเว็บหรือผ่านระบบจัดการเนื้อหา (CMS) ซึ่งเจ้าของเว็บไซต์อาจมีช่องทำเครื่องหมายหรือเมนูแบบเลื่อนลงเพื่อเลือกค่ากำหนด การควบคุมเหล่านี้สามารถใช้กับ Crawler ที่เจาะจง เช่น Googlebot หรือ Crawler ทั้งหมดที่รองรับค่าเหล่านี้ได้โดยไม่ต้องระบุชื่อ
ตัวอย่างเช่น กฎต่อไปนี้บอก Crawler ทั้งหมดว่าอย่าใช้หน้าเว็บที่เชื่อมโยงเพื่อจัดทำดัชนี
- ในรูปแบบ
meta
แท็ก HTML ในหน้าเว็บ<meta name="robots" content="noindex">
การตรวจสอบ
meta
แท็กหรือส่วนหัวการตอบกลับที่มีอยู่นั้นซับซ้อนกว่าเล็กน้อย และจำเป็นต้องตรวจสอบเนื้อหาหรือส่วนหัวของหน้าเว็บโดยตรง คุณสามารถดูmeta
แท็ก HTML ในหน้าเว็บใดก็ได้โดยดูที่ซอร์สโค้ดของหน้าในเบราว์เซอร์ หรือใช้เครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ของ Chrome เพื่อตรวจสอบหน้าเว็บ
- ในรูปแบบส่วนหัวการตอบกลับ HTTP
X-Robots-Tag: noindex
คุณสามารถตรวจสอบส่วนหัวการตอบกลับ HTTP ของ URL แต่ละรายการได้ด้วยเครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ของ Chrome ในแผงเครือข่าย
ตัวอย่างอื่นๆ ของสิ่งที่คุณทำได้มีดังนี้
อย่าแสดงตัวอย่างข้อมูลสำหรับหน้าหรือเอกสารนี้ |
ในส่วนหัว HTTP
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
อย่าจัดทำดัชนีหน้านี้ใน การควบคุมเหล่านี้จะระบุ Crawler รายการเดียวอย่างชัดเจน |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
โปรดทราบว่าระบบจะใช้คำสั่งที่ถูกต้องและจำกัดมากที่สุด ดังนั้นสำหรับ |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
การเลือกกลไก REP
คุณเลือกวิธีใช้อย่างไร โดยพื้นฐานแล้ว การควบคุมระดับหน้าเว็บและ robots.txt จะคล้ายกัน แต่ใช้แทนกันได้ไม่ทั้งหมด บางครั้งอาจมีการดำเนินการบางอย่างที่ทำได้โดยใช้กลไกเพียงกลไกเดียว เช่น หากต้องการหยุดการ Crawl (เช่น สำหรับหน้าผลการค้นหาที่ไม่มีที่สิ้นสุด ซึ่งทำได้โดยใช้ robots.txt) หากต้องการควบคุมเซิร์ฟเวอร์ FTP (ทำได้โดยใช้ robots.txt) หรือหากไม่ต้องการให้แสดงตัวอย่างข้อมูลสำหรับหน้าเว็บ (ซึ่งทำได้โดยใช้องค์ประกอบระดับหน้าเว็บเท่านั้น) หากไม่จำเป็นต้องแยกความแตกต่างระหว่างการบล็อกการ Crawl กับการบล็อกการจัดทำดัชนี วิธีหนึ่งคือการใช้ robots.txt เพื่อการควบคุมที่กว้างขึ้น (เพื่อบล็อกส่วนต่างๆ ของเว็บไซต์) และการควบคุมระดับหน้าเว็บเพื่อบล็อกแต่ละหน้า
โปรโตคอลการยกเว้นสำหรับโรบ็อต (Robots Exclusion Protocol) ซึ่งเป็นมาตรฐานที่มีประสิทธิภาพและใช้งานได้จริง
การควบคุมเหล่านี้ทั้งหมดขยายได้ ตลอดหลายปีที่ผ่านมา เจ้าของเว็บไซต์, ผู้ให้บริการ Crawler และเครื่องมือค้นหาต่างก็ทำงานร่วมกันเพื่อพัฒนา Crawler
เดิมทีมีเพียงไม่กี่ค่า เช่น noindex
และ nofollow
ต่อมาจึงมีการใช้ค่าอื่นๆ เพิ่มเติม เช่น nosnippet
, noarchive
และ max-snippet:
และบางครั้งก็เลิกใช้งานค่า เช่น noodp
ซึ่งใช้ข้อมูลโค้ดจาก DMOZ/Open Directory Project ก่อนจะปิดไดเรกทอรี
Google รองรับค่าต่างๆ มากมายสำหรับเจ้าของเว็บไซต์ และยังมีค่าอื่นๆ อีกมากมายจากผู้ให้บริการ Crawler รายใหญ่รายอื่นๆ
ภายใต้ REP เจ้าของเว็บไซต์สามารถควบคุมสิ่งที่จะทำการ Crawl และวิธีใช้ข้อมูลที่ทำการ Crawl ในเครื่องมือค้นหาได้ ซึ่งสามารถดำเนินการในระดับกว้างสำหรับส่วนสำคัญของเว็บไซต์ หรือในระดับที่ละเอียดมากสำหรับหน้าเว็บแต่ละหน้าหรือแม้แต่รูปภาพภายในหน้าเว็บ การควบคุมเหล่านี้เป็นที่รู้จักกันดี มีอยู่ในระบบจัดการเนื้อหาทั่วไปทั้งหมด ได้รับการรองรับอย่างกว้างขวางจากผู้ให้บริการเชิงพาณิชย์ และใช้ในโฮสต์หลายพันล้านรายการบนอินเทอร์เน็ตในปัจจุบัน