ข้อกำหนดเมตาแท็ก robots และส่วนหัว HTTP ของ X-Robots-Tag

บทคัดย่อ

เอกสารนี้แสดงรายละเอียดเกี่ยวกับผลของการตั้งค่าการจัดทำดัชนีระดับหน้าเว็บต่อการควบคุมวิธีที่ Google ทำให้เนื้อหาพร้อมใช้งานผ่านผลการค้นหา คุณระบุการตั้งค่าเหล่านี้ได้โดยใส่เมตาแท็กในหน้า (X)HTML หรือในส่วนหัว HTTP

การใช้เมตาแท็ก robots

เมตาแท็ก robots ช่วยให้คุณใช้วิธีการที่ละเอียดและเจาะจงหน้าเว็บเพื่อควบคุมวิธีระบบควรจัดทำดัชนีหน้าเว็บหนึ่งๆ และแสดงต่อผู้ใช้ในผลการค้นหา วางเมตาแท็ก robots ไว้ในส่วน <head> ของหน้าเว็บนั้นๆ ดังนี้

<!DOCTYPE html>
<html><head>
<meta name="robots" content="noindex" />
(…)
</head>
<body>(…)</body>
</html>

เมตาแท็ก robots ในตัวอย่างข้างต้นบอกเครื่องมือค้นหาส่วนใหญ่ไม่ให้แสดงหน้าเว็บดังกล่าวในผลการค้นหา ค่าของแอตทริบิวต์ name (robots) จะระบุว่าคำสั่งนี้ใช้กับโปรแกรมรวบรวมข้อมูลทั้งหมด หากต้องการกล่าวถึงโปรแกรมรวบรวมข้อมูลที่เจาะจง ให้ระบุชื่อของโปรแกรมรวบรวมข้อมูลที่จะกล่าวถึงแทนค่า robots ของแอตทริบิวต์ name โปรแกรมรวบรวมข้อมูลที่เจาะจงเรียกอีกอย่างว่า User-agent (โปรแกรมรวบรวมข้อมูลใช้ User-agent เพื่อขอหน้าเว็บ) โปรแกรมรวบรวมข้อมูลเว็บมาตรฐานของ Google มี User-agent ชื่อ Googlebot หากไม่ต้องการให้ Googlebot เพียงโปรแกรมเดียวรวบรวมข้อมูลหน้าเว็บ ให้อัปเดตแท็กตามนี้

<meta name="googlebot" content="noindex" />

แท็กนี้ก็จะบอก Google (แต่ไม่บอกเครื่องมือค้นหาอื่น) ไม่ให้แสดงหน้านี้ในผลการค้นหาเว็บ ทั้งแอตทริบิวต์ name และ content ไม่คำนึงถึงตัวพิมพ์เล็กหรือใหญ่

เครื่องมือค้นหาอาจมีโปรแกรมรวบรวมข้อมูลที่แตกต่างกันสำหรับพร็อพเพอร์ตี้หรือวัตถุประสงค์ต่างๆ ดูรายชื่อโปรแกรมรวบรวมข้อมูลทั้งหมดของ Google ตัวอย่างเช่น หากต้องการแสดงหน้าเว็บในผลการค้นหาเว็บของ Google แต่ไม่แสดงใน Google News ให้ใช้เมตาแท็กต่อไปนี้

<meta name="googlebot-news" content="noindex" />

คุณใช้เมตาแท็ก robots หลายรายการได้หากจำเป็นต้องระบุโปรแกรมรวบรวมข้อมูลจำนวนมากทีละโปรแกรม

<meta name="googlebot" content="noindex">
<meta name="googlebot-news" content="nosnippet">

หากโปรแกรมรวบรวมข้อมูลพบคำสั่งที่ใกล้เคียงกัน เราจะใช้คำสั่งที่เข้มงวดที่สุดที่พบ

การใช้ส่วนหัว HTTP ของ X-Robots-Tag

คุณใช้ X-Robots-Tag เป็นเอลิเมนต์การตอบสนองของส่วนหัว HTTP สำหรับ URL หนึ่งๆ ได้ คำสั่งที่ใช้ในเมตาแท็ก robots ได้ก็จะระบุเป็น X-Robots-Tag ได้เช่นกัน ต่อไปนี้คือตัวอย่างการตอบสนองของ HTTP ที่มี X-Robots-Tag ซึ่งห้ามไม่ให้โปรแกรมรวบรวมข้อมูลจัดทำดัชนีหน้าเว็บ

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

คุณจะใส่ส่วนหัว X-Robots-Tag หลายรายการไว้รวมกันภายในการตอบสนองของ HTTP หรือระบุรายการคำสั่งที่คั่นด้วยจุลภาคก็ได้ ต่อไปนี้คือตัวอย่างการตอบสนองของส่วนหัว HTTP ที่มี noarchive X-Robots-Tag รวมอยู่กับ unavailable_after X-Robots-Tag

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 25 Jun 2010 15:00:00 PST
(…)

X-Robots-Tag อาจระบุ User-agent ก่อนคำสั่ง เช่น คุณใช้ชุดส่วนหัว HTTP ของ X-Robots-Tag ต่อไปนี้เพื่ออนุญาตให้แสดงหน้าเว็บตามเงื่อนไขในผลการค้นหาของเครื่องมือค้นหาที่ต่างกันได้

HTTP/1.1 200 OK
Date: Tue, 25 May 2010 21:42:43 GMT
(…)
X-Robots-Tag: googlebot: nofollow
X-Robots-Tag: otherbot: noindex, nofollow
(…)

คำสั่งที่ระบุโดยไม่มี User-agent นั้นมีผลกับโปรแกรมรวบรวมข้อมูลทั้งหมด ส่วนด้านล่างนี้แสดงวิธีใช้คำสั่งแบบรวม ทั้งชื่อและค่าที่ระบุไม่คำนึงถึงตัวพิมพ์เล็กหรือใหญ่

คำสั่งที่ถูกต้องสำหรับการจัดทำดัชนีและการแสดงผล

คำสั่งอื่นอีกหลายรายการก็ใช้เพื่อควบคุมการจัดทำดัชนีและการแสดงผลร่วมกับเมตาแท็ก robots และ X-Robots-Tag ได้ แต่ละค่าแสดงถึงคำสั่งหนึ่งๆ ตารางต่อไปนี้แสดงคำสั่งทั้งหมดที่ Google ทำตามและความหมายของคำสั่ง โปรดทราบว่าโปรแกรมรวบรวมข้อมูลของเครื่องมือค้นหาอื่นๆ อาจไม่ทำตามคำสั่งเหล่านี้ในลักษณะเดียวกัน คุณรวมคำสั่งหลายรายการไว้ในรายการที่คั่นด้วยจุลภาคได้ (ดูวิธีใช้คำสั่งแบบรวมที่ด้านล่าง) คำสั่งเหล่านี้ไม่คำนึงถึงตัวพิมพ์เล็กหรือใหญ่

คำสั่ง
all ไม่มีข้อจำกัดในการจัดทำดัชนีหรือแสดงผล หมายเหตุ: คำสั่งนี้เป็นค่าเริ่มต้นและไม่มีผลใดๆ หากมีการระบุไว้อย่างชัดเจน
noindex อย่าแสดงหน้านี้และลิงก์ "ที่เก็บไว้" ในผลการค้นหา
nofollow อย่าไปที่ลิงก์ในหน้านี้
none มีค่าเทียบเท่า noindex, nofollow
noarchive อย่าแสดงลิงก์ "ที่เก็บไว้" ในผลการค้นหา
nosnippet อย่าแสดงตัวอย่างข้อความหรือวิดีโอในผลการค้นหาสำหรับหน้านี้ ผู้ใช้จะยังคงเห็นภาพขนาดย่อแบบคงที่ (หากมี)
notranslate อย่าเสนอคำแปลของหน้านี้ในผลการค้นหา
noimageindex อย่าจัดทำดัชนีรูปภาพที่อยู่ในหน้านี้
unavailable_after: [RFC-850 date/time] อย่าแสดงหน้านี้ในผลการค้นหาหลังจากวันที่/เวลาที่ระบุ ต้องระบุวันที่/เวลาในรูปแบบ RFC 850

หลังจากที่ไฟล์ robots.txt (หรือการไม่มีไฟล์นี้) ให้สิทธิ์ในการรวบรวมข้อมูลหน้าเว็บแล้ว โดยค่าเริ่มต้น ระบบจะถือว่าสามารถรวบรวมข้อมูล จัดทำดัชนี และเก็บหน้าเว็บต่างๆ ไว้ และเนื้อหาของหน้าได้รับอนุมัติให้ใช้ในตัวอย่างข้อมูลที่จะแสดงในผลการค้นหา เว้นแต่ว่าจะมีการปฏิเสธสิทธิ์อย่างเจาะจงในเมตาแท็ก robots หรือ X-Robots-Tag

การใช้คำสั่งแบบรวมสำหรับการจัดทำดัชนีและการแสดงผล

คุณสร้างวิธีการที่เป็นคำสั่งหลายรายการได้โดยใช้คำสั่งของเมตาแท็ก robots ร่วมกับเครื่องหมายจุลภาค ต่อไปนี้คือตัวอย่างเมตาแท็ก robots ที่บอกโปรแกรมรวบรวมข้อมูลเว็บไม่ให้จัดทำดัชนีหน้าเว็บและไม่ให้รวบรวมข้อมูลของลิงก์ใดๆ ในหน้าเว็บเลย

<meta name="robots" content="noindex, nofollow">

ในกรณีที่มีการระบุโปรแกรมรวบรวมข้อมูลหลายโปรแกรมพร้อมกับคำสั่งหลายรายการ เครื่องมือค้นหาจะใช้ผลรวมของคำสั่งเชิงลบ เช่น

<meta name="robots" content="nofollow">
<meta name="googlebot" content="noindex">

Googlebot จะเข้าใจว่าหน้าเว็บที่มีเมตาแท็กเหล่านี้มีคำสั่ง noindex, nofollow เมื่อรวบรวมข้อมูล

แนวทางการติดตั้ง X-Robots-Tag โดยใช้ Apache

คุณเพิ่ม X-Robots-Tag ในการตอบสนองของ HTTP ของเว็บไซต์โดยใช้ไฟล์ .htaccess และ httpd.conf ที่พร้อมใช้งานโดยค่าเริ่มต้นในเว็บเซิร์ฟเวอร์ที่ใช้ Apache ได้ ประโยชน์ของการใช้ X-Robots-Tag ที่มีการตอบสนองของ HTTP คือคุณระบุคำสั่งในการรวบรวมข้อมูลที่มีผลทั่วทั้งเว็บไซต์ได้ การสนับสนุนนิพจน์ทั่วไปช่วยให้มีความยืดหยุ่นในระดับสูง

ตัวอย่างเช่น หากต้องการเพิ่ม noindex, nofollow X-Robots-Tag ในการตอบสนองของ HTTP สำหรับไฟล์ .PDF ทั้งหมดทั่วทั้งเว็บไซต์ ให้เพิ่มข้อมูลโค้ดต่อไปนี้ในไฟล์ .htaccess หรือไฟล์ httpd.conf รากของเว็บไซต์

<Files ~ "\.pdf$">
  Header set X-Robots-Tag "noindex, nofollow"
</Files>

คุณสามารถใช้ X-Robots-Tag สำหรับไฟล์ที่ไม่ใช่ HTML เช่น ไฟล์ภาพ ในกรณีที่ใช้เมตาแท็ก robots ไม่ได้ ต่อไปนี้คือตัวอย่างการเพิ่มคำสั่ง noindex X-Robots-Tag สำหรับไฟล์ภาพ (.png, .jpeg, .jpg, .gif) ทั่วทั้งเว็บไซต์

<Files ~ "\.(png|jpe?g|gif)$">
  Header set X-Robots-Tag "noindex"
</Files>

การรวมการรวบรวมข้อมูลกับคำสั่งในการจัดทำดัชนี/การแสดงผล

ระบบจะพบเมตาแท็ก robots และส่วนหัว HTTP ของ X-Robots-Tag เมื่อรวบรวมข้อมูล URL หากไม่มีการอนุญาตให้รวบรวมข้อมูลหน้าเว็บผ่านไฟล์ robots.txt ระบบจะไม่พบข้อมูลเกี่ยวกับคำสั่งในการจัดทำดัชนีหรือการแสดงผล แล้วก็จะละเว้นคำสั่งดังกล่าว หากต้องการให้ระบบทำตามคำสั่งในการจัดทำดัชนีหรือการแสดงผล คุณจะต้องอนุญาตให้มีการรวบรวมข้อมูล URL ที่มีคำสั่งเหล่านั้น