หมายเหตุเกี่ยวกับกฎที่ไม่รองรับใน robots.txt

วันอังคารที่ 2 กรกฎาคม 2019

เมื่อวานนี้เราได้ประกาศว่าเราเปิดโอเพนซอร์สสำหรับโปรแกรมแยกวิเคราะห์ไฟล์ robots.txt เวอร์ชันที่ใช้งานจริงของ Google ซึ่งเป็นช่วงเวลาอันน่าตื่นเต้นในการปูทางให้กับโปรเจ็กต์โอเพนซอร์สของ Search ในอนาคต ความคิดเห็นต่างๆ จะช่วยได้มาก และเรากำลังรวบรวมคำถามจากนักพัฒนาซอฟต์แวร์และผู้ดูแลเว็บ คําถามข้อหนึ่งที่น่าสนใจซึ่งเราจะพูดถึงในโพสต์นี้คือ
ทําไม Handler โค้ดสำหรับกฎอื่นๆ เช่น Crawl-delay จึงไม่มีรวมอยู่ในโค้ด

ฉบับร่างของอินเทอร์เน็ตที่เราเผยแพร่เมื่อวานนี้มีสถาปัตยกรรมที่สามารถขยายได้สำหรับกฎที่ไม่ได้รวมอยู่ในมาตรฐาน ซึ่งหมายความว่าหาก Crawler อยากจะรองรับบรรทัดโค้ดของตนเอง เช่น unicorns: allowed ก็สามารถทําได้ เราได้ใส่บรรทัด Sitemap ที่พบบ่อยไว้ในโอเพนซอร์สของโปรแกรมแยกวิเคราะห์ robots.txt ไว้เพื่อให้เห็นว่าหน้าตาของโปรแกรมแยกวิเคราะห์จะออกมาเป็นอย่างไร

ขณะเรียกใช้ไลบรารีโปรแกรมแยกวิเคราะห์นี้ เราได้วิเคราะห์การใช้งานกฎ robots.txt โดยเฉพาะอย่างยิ่ง เราเน้นที่กฎซึ่งฉบับร่างของอินเทอร์เน็ตยังไม่รองรับ เช่น crawl-delay, nofollow และ noindex เนื่องจาก Google ไม่เคยได้บันทึกกฎเหล่านี้ไว้เลย การใช้งานที่เกี่ยวข้องกับ Googlebot จึงน้อยมาก เมื่อเจาะให้ลึกลงไปอีก เราพบว่าเราพบว่าการใช้งานกฎเหล่านี้ขัดแย้งกับกฎอื่นๆ ทั้งหมดยกเว้น 0.001% ของไฟล์ robots.txt ทั้งหมดบนอินเทอร์เน็ต ข้อผิดพลาดเหล่านี้ส่งผลเสียต่อการแสดงเว็บไซต์ในผลการค้นหาของ Google ในลักษณะที่เราคิดว่าผู้ดูแลเว็บไม่ได้ตั้งใจให้เป็นอย่างนั้น

เพื่อเป็นการรักษาระบบนิเวศที่ดีและเตรียมพร้อมสําหรับการเปิดโอเพนซอร์สที่เป็นไปได้ในอนาคต เราจะเลิกใช้โค้ดทั้งหมดแฮนเดิลกฎที่ไม่รองรับและที่ยังไม่ได้เผยแพร่ (เช่น noindex) ในวันที่ 1 กันยายน 2019 สําหรับผู้ที่ต้องใช้กฎการจัดทําดัชนี noindex ในไฟล์ robots.txt ซึ่งควบคุมการ Crawl คุณมีทางเลือกอื่นๆ ดังนี้

noindex ในแท็ก meta ของ robots: กฎ noindex มีประสิทธิภาพมากที่สุดในการนำ URL ออกจากดัชนีเมื่ออนุญาตให้ทำการ Crawl ซึ่งรองรับทั้งในส่วนหัวการตอบกลับ HTTP และใน HTML
รหัสสถานะ HTTP 404 และ 410: ทั้งสองรหัสสถานะนี้มีความหมายว่าไม่มีหน้านั้นอยู่ ซึ่งจะกัน URL ดังกล่าวออกจากการจัดทำดัชนีเมื่อ Google ทำการ Crawl และประมวลผล
การป้องกันด้วยรหัสผ่าน: โดยทั่วไปการซ่อนหน้าไว้ข้างหลังการเข้าสู่ระบบจะทําให้หน้านั้นถูกนำออกจากดัชนีของ Google เว้นแต่จะมีการใช้มาร์กอัปเพื่อระบุว่าเป็นการสมัครรับข้อมูลหรือเนื้อหาเพย์วอลล์
กฎ Disallow ใน robots.txt: เครื่องมือค้นหาสามารถจัดทําดัชนีได้เฉพาะหน้าเว็บที่ตนรู้จักเท่านั้น ดังนั้นการบล็อกหน้าเว็บไม่ให้ได้รับการ Crawl โดยทั่วไปจะหมายความว่าเนื้อหาจะไม่ได้รับการจัดทำดัชนี แม้ว่าเครื่องมือค้นหาอาจจัดทําดัชนี URL โดยอิงตามลิงก์จากหน้าเว็บอื่นๆ ด้วย แต่หากไม่มีการเห็นตัวเนื้อหา เราก็หวังที่จะทําให้หน้าดังกล่าวมองเห็นได้น้อยลงในอนาคต
เครื่องมือนํา URL ออกใน Search Console: เครื่องมือนี้เป็นวิธีที่ง่ายและรวดเร็วในการนำ URL ออกจากผลการค้นหาของ Google ชั่วคราว

ดูคําแนะนําเพิ่มเติมเกี่ยวกับวิธีนําข้อมูลออกจากผลการค้นหาของ Google ได้ที่ศูนย์ช่วยเหลือ หากมีข้อสงสัย โปรดติดต่อเราทาง Twitter และในชุมชนสำหรับผู้ดูแลเว็บทั้งแบบออฟไลน์และออนไลน์

โพสต์โดย Gary Illyes