ทบทวนความรู้เรื่อง Robots: รายละเอียดระดับหน้าเว็บ

วันศุกร์ที่ 14 มีนาคม 2025

ไฟล์ robots.txt ช่วยให้เจ้าของเว็บไซต์มีวิธีง่ายๆ ในการควบคุมว่า Crawler จะเข้าถึงส่วนใดของเว็บไซต์ได้บ้าง ชุมชนที่มีส่วนร่วมในการพัฒนามาตรฐานเว็บได้สร้างแท็ก meta ของโรบ็อตในปี 1996 เพื่อช่วยเจ้าของเว็บไซต์ระบุเพิ่มเติมว่าเครื่องมือค้นหาและ Web Crawler สามารถใช้หน้าเว็บของตนได้อย่างไร เพียงไม่กี่เดือนหลังจากที่มีการเสนอแท็ก meta สำหรับ HTML (และแท็กนี้ยังใช้ก่อนมี Google ด้วยซ้ำ) ต่อมามีการเพิ่มส่วนหัวการตอบกลับ HTTP ของ X-Robots-Tag ระบบจะส่งคำสั่งเหล่านี้ไปพร้อมกับ URL ดังนั้น Crawler จะพิจารณาคำสั่งเหล่านี้ก็ต่อเมื่อไม่ได้ถูกบล็อกไม่ให้ทำการ Crawl URL ผ่านไฟล์ robots.txt ซึ่งรวมกันเป็นโปรโตคอลการยกเว้นสำหรับโรบ็อต (REP)

ข้อมูลเกี่ยวกับmetaแท็ก robots

เมตาแท็ก (หรือองค์ประกอบ) เป็นวิธีรวมข้อมูลเมตาที่เครื่องสามารถอ่านได้ metaแท็ก robots เป็นmetaแท็ก "ประเภท" หนึ่งๆ และมีผลกับ Crawler รวมถึง Crawler ของเครื่องมือค้นหา สัญญาณที่บ่งบอกว่าเนื้อหาถูกบล็อกไม่ให้มีการจัดทำดัชนีหรือไม่ ไม่ควรไปที่ลิงก์บนหน้าเว็บเพื่อทำการ Crawl ใช่ไหม การให้ข้อมูลนี้ในหน้าเว็บโดยตรงด้วยmetaแท็ก robots นั้นทำได้ง่ายๆ

โปรโตคอลการยกเว้นสำหรับโรบ็อตของ URL ใดก็ได้

ระบบได้สร้างส่วนหัวการตอบกลับ HTTP ของ "X-Robots-Tag" เพื่อให้ควบคุมเนื้อหาที่ไม่ใช่ HTML ได้ในระดับเดียวกัน ส่วนหัว HTTP เหล่านี้จะถือว่าเป็นส่วนหนึ่งของ REP ด้วย ส่วนหัวรองรับค่าเดียวกับmetaแท็ก robots และสามารถเพิ่มลงในเนื้อหาใดก็ได้ที่แสดงทางออนไลน์ นอกจาก HTML แล้ว Google ยังรองรับการจัดทำดัชนีสำหรับเนื้อหาอื่นๆ เช่น PDF, ไฟล์เอกสาร และแม้แต่รูปภาพ รูปแบบไฟล์ส่วนใหญ่เหล่านี้ไม่มีกลไกที่เทียบเท่ากับmetaแท็ก ดังนั้นส่วนหัวการตอบกลับ HTTP จึงมีประโยชน์

เริ่มต้นใช้งานmetaแท็กและส่วนหัวของโรบ็อต

ไวยากรณ์นั้นเรียบง่ายและขยายได้ โดยทั่วไปแล้ว กฎเหล่านี้จะติดตั้งใช้งานโดยนักพัฒนาเว็บหรือผ่านระบบจัดการเนื้อหา (CMS) ซึ่งเจ้าของเว็บไซต์อาจมีช่องทำเครื่องหมายหรือเมนูแบบเลื่อนลงเพื่อเลือกค่ากำหนด การควบคุมเหล่านี้สามารถใช้กับ Crawler ที่เจาะจง เช่น Googlebot หรือ Crawler ทั้งหมดที่รองรับค่าเหล่านี้ได้โดยไม่ต้องระบุชื่อ

ตัวอย่างเช่น กฎต่อไปนี้บอก Crawler ทั้งหมดว่าอย่าใช้หน้าเว็บที่เชื่อมโยงเพื่อจัดทำดัชนี

  • ในรูปแบบmetaแท็ก HTML ในหน้าเว็บ
    <meta name="robots" content="noindex">

    การตรวจสอบmetaแท็กหรือส่วนหัวการตอบกลับที่มีอยู่นั้นซับซ้อนกว่าเล็กน้อย และจำเป็นต้องตรวจสอบเนื้อหาหรือส่วนหัวของหน้าเว็บโดยตรง คุณสามารถดูmetaแท็ก HTML ในหน้าเว็บใดก็ได้โดยดูที่ซอร์สโค้ดของหน้าในเบราว์เซอร์ หรือใช้เครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ของ Chrome เพื่อตรวจสอบหน้าเว็บ

  • ในรูปแบบส่วนหัวการตอบกลับ HTTP
    X-Robots-Tag: noindex

    คุณสามารถตรวจสอบส่วนหัวการตอบกลับ HTTP ของ URL แต่ละรายการได้ด้วยเครื่องมือสำหรับนักพัฒนาซอฟต์แวร์ของ Chrome ในแผงเครือข่าย

ตัวอย่างอื่นๆ ของสิ่งที่คุณทำได้มีดังนี้

อย่าแสดงตัวอย่างข้อมูลสำหรับหน้าหรือเอกสารนี้

ในส่วนหัว HTTP
X-Robots-Tag: nosnippet
หรือใน HTML
<meta name="robots" content="nosnippet">

อย่าจัดทำดัชนีหน้านี้ใน ExampleBot-News โดยไม่ระบุค่ากำหนดสำหรับประเทศอื่นๆ

การควบคุมเหล่านี้จะระบุ Crawler รายการเดียวอย่างชัดเจน

X-Robots-Tag: examplebot-news: noindex
หรือ
<meta name="examplebot-news" content="noindex">

ExampleBot ไม่ควรแสดงตัวอย่างข้อมูล และนอกจากนี้ Crawler ทั้งหมดไม่ควรไปที่ลิงก์ในหน้านี้

โปรดทราบว่าระบบจะใช้คำสั่งที่ถูกต้องและจำกัดมากที่สุด ดังนั้นสำหรับ ExampleBot ระบบจะรวมคำสั่งเป็น "nosnippet, nofollow"

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
หรือ
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

การเลือกกลไก REP

คุณเลือกวิธีใช้อย่างไร โดยพื้นฐานแล้ว การควบคุมระดับหน้าเว็บและ robots.txt จะคล้ายกัน แต่ใช้แทนกันได้ไม่ทั้งหมด บางครั้งอาจมีการดำเนินการบางอย่างที่ทำได้โดยใช้กลไกเพียงกลไกเดียว เช่น หากต้องการหยุดการ Crawl (เช่น สำหรับหน้าผลการค้นหาที่ไม่มีที่สิ้นสุด ซึ่งทำได้โดยใช้ robots.txt) หากต้องการควบคุมเซิร์ฟเวอร์ FTP (ทำได้โดยใช้ robots.txt) หรือหากไม่ต้องการให้แสดงตัวอย่างข้อมูลสำหรับหน้าเว็บ (ซึ่งทำได้โดยใช้องค์ประกอบระดับหน้าเว็บเท่านั้น) หากไม่จำเป็นต้องแยกความแตกต่างระหว่างการบล็อกการ Crawl กับการบล็อกการจัดทำดัชนี วิธีหนึ่งคือการใช้ robots.txt เพื่อการควบคุมที่กว้างขึ้น (เพื่อบล็อกส่วนต่างๆ ของเว็บไซต์) และการควบคุมระดับหน้าเว็บเพื่อบล็อกแต่ละหน้า

โปรโตคอลการยกเว้นสำหรับโรบ็อต (Robots Exclusion Protocol) ซึ่งเป็นมาตรฐานที่มีประสิทธิภาพและใช้งานได้จริง

การควบคุมเหล่านี้ทั้งหมดขยายได้ ตลอดหลายปีที่ผ่านมา เจ้าของเว็บไซต์, ผู้ให้บริการ Crawler และเครื่องมือค้นหาต่างก็ทำงานร่วมกันเพื่อพัฒนา Crawler เดิมทีมีเพียงไม่กี่ค่า เช่น noindex และ nofollow ต่อมาจึงมีการใช้ค่าอื่นๆ เพิ่มเติม เช่น nosnippet, noarchive และ max-snippet: และบางครั้งก็เลิกใช้งานค่า เช่น noodp ซึ่งใช้ข้อมูลโค้ดจาก DMOZ/Open Directory Project ก่อนจะปิดไดเรกทอรี Google รองรับค่าต่างๆ มากมายสำหรับเจ้าของเว็บไซต์ และยังมีค่าอื่นๆ อีกมากมายจากผู้ให้บริการ Crawler รายใหญ่รายอื่นๆ

ภายใต้ REP เจ้าของเว็บไซต์สามารถควบคุมสิ่งที่จะทำการ Crawl และวิธีใช้ข้อมูลที่ทำการ Crawl ในเครื่องมือค้นหาได้ ซึ่งสามารถดำเนินการในระดับกว้างสำหรับส่วนสำคัญของเว็บไซต์ หรือในระดับที่ละเอียดมากสำหรับหน้าเว็บแต่ละหน้าหรือแม้แต่รูปภาพภายในหน้าเว็บ การควบคุมเหล่านี้เป็นที่รู้จักกันดี มีอยู่ในระบบจัดการเนื้อหาทั่วไปทั้งหมด ได้รับการรองรับอย่างกว้างขวางจากผู้ให้บริการเชิงพาณิชย์ และใช้ในโฮสต์หลายพันล้านรายการบนอินเทอร์เน็ตในปัจจุบัน


ดูซีรีส์ "ทบทวนความรู้เรื่อง Robots" ที่เหลือได้ที่: