โปรแกรมแยกวิเคราะห์ robots.txt ของ Google เปิดให้ใช้งานแบบโอเพนซอร์สแล้ว

วันจันทร์ที่ 1 กรกฎาคม 2019

เป็นเวลา 25 ปีที่โปรโตคอลการยกเว้นสำหรับโรบ็อต (Robots Exclusion Protocol หรือ REP) เป็นได้เพียงแค่มาตรฐานที่รู้กันเอง (De-facto) ในหมู่ผู้ใช้ ซึ่งอาจทําให้เกิดผลกระทบที่น่าหงุดหงิดในบางครั้ง ซึ่งในด้านหนึ่งสําหรับผู้ดูแลเว็บ นั่นหมายถึงความไม่แน่นอนในกรณีที่เป็น Corner Case เช่น เมื่อเครื่องมือแก้ไขข้อความมีอักขระ BOM ในไฟล์ robots.txt และในอีกด้านหนึ่งสําหรับ Crawler และนักพัฒนาเครื่องมือ นั่นก็ทําให้เกิดความไม่แน่ใจขึ้นมา เช่น พวกเขาควรจะจัดการไฟล์ robots.txt ที่มีขนาดใหญ่หลายร้อยเมกะไบต์อย่างไร

Googlebot แกะกล่องเว็บไซต์

วันนี้เราได้ประกาศว่าเรากำลังพยายามทําให้ REP ได้เป็นมาตรฐานของอินเทอร์เน็ต แม้ว่าจะเป็นก้าวที่สําคัญ แต่ก็ทำให้นักพัฒนาซอฟต์แวร์ที่แยกวิเคราะห์ไฟล์ robots.txt ต้องมีงานเพิ่มขึ้น

เราพร้อมช่วยเหลือคุณ โดยได้เปิดโอเพนซอร์สสำหรับไลบรารี C++ ที่ระบบการผลิตของเราใช้ในการแยกวิเคราะห์และจับคู่กฎในไฟล์ robots.txt ไลบรารีนี้อยู่มาประมาณ 20 ปีแล้ว โดยประกอบด้วยโค้ดต่างๆ ที่เขียนขึ้นในช่วงปี 90 นับตั้งแต่นั้นมา ไลบรารีก็มีการพัฒนามาโดยตลอด เราได้เรียนรู้อะไรมากมายเกี่ยวกับวิธีที่ผู้ดูแลเว็บเขียนไฟล์ robots.txt และพวก Corner Case ต่างๆ ที่เราต้องหาทางแก้ไข และยังได้เพิ่มสิ่งที่เราเรียนรู้ตลอดหลายปีที่ผ่านมาลงในฉบับร่างของอินเทอร์เน็ตเมื่อเห็นว่าเหมาะสมด้วย

นอกจากนี้ เรายังมีเครื่องมือการทดสอบในแพ็กเกจโอเพนซอร์สเพื่อช่วยคุณทดสอบกฎบางอย่างด้วย เมื่อสร้างเสร็จแล้ว การใช้งานจะไม่ซับซ้อนเลย เช่น

robots_main <robots.txt content> <user_agent> <url>

หากต้องการตรวจสอบไลบรารี ก็แค่ไปที่ที่เก็บ GitHub สําหรับโปรแกรมแยกวิเคราะห์ robots.txt เราอยากเห็นว่าคุณใช้ไลบรารีนี้ทำอะไรได้บ้าง หากคุณทำอะไรสักอย่างโดยใช้ไลบรารีนี้ ช่วยส่งความคิดเห็นถึงเราด้วยทาง Twitter และหากคุณมีข้อเสนอแนะหรือคำถามเกี่ยวกับไลบรารี โปรดติดต่อเราที่ GitHub