วันจันทร์ที่ 24 กุมภาพันธ์ 2025
บางครั้งเราได้รับคําถามเกี่ยวกับ robots.txt, เมตาแท็ก robots และฟังก์ชันการควบคุมที่เสนอ จากชุดบทความเกี่ยวกับ Crawling ในเดือนธันวาคม เราคิดว่านี่จะเป็นโอกาสที่ดีในการทบทวนข้อมูลคร่าวๆ ดังนั้น หากคุณอยากรู้เกี่ยวกับการควบคุมเหล่านี้ โปรดติดตามอ่านซีรีส์บล็อกโพสต์ใหม่นี้
มาเริ่มกันที่ robots.txt
ว่าแต่ robots.txt คืออะไร
"robots.txt" เป็นไฟล์ที่เว็บไซต์ใดก็ได้มี รูปแบบที่ง่ายที่สุดคือไฟล์ข้อความที่จัดเก็บอยู่ในเซิร์ฟเวอร์ เว็บไซต์เกือบทุกแห่งมีไฟล์ robots.txt
หากต้องการดูตัวอย่าง ให้นำชื่อโดเมนมาเพิ่ม /robots.txt
ต่อท้าย แล้วเรียกดูที่ที่อยู่นั้น เช่น ไฟล์ robots.txt ของเว็บไซต์นี้อยู่ที่ developers.google.com/robots.txt
เว็บไซต์ส่วนใหญ่ใช้ระบบจัดการเนื้อหา (CMS) ที่สร้างไฟล์เหล่านี้โดยอัตโนมัติ แต่การสร้างไฟล์เหล่านี้ก็ไม่ใช่เรื่องยากแม้ว่าคุณจะสร้างเว็บไซต์ "ด้วยตนเอง" เราจะพูดถึงรูปแบบต่างๆ ในโพสต์ในอนาคต
ไฟล์เหล่านี้มีไว้เพื่ออะไร
ไฟล์ robots.txt จะบอก Crawler ของเว็บไซต์ว่าส่วนใดของเว็บไซต์ที่เข้าถึงได้โดยอัตโนมัติ (เราเรียกกระบวนการนี้ว่า "การ Crawl") และส่วนใดที่เข้าถึงไม่ได้ ซึ่งช่วยให้เว็บไซต์สามารถจัดการทุกอย่างได้ตั้งแต่ทั้งเว็บไซต์ บางส่วนของเว็บไซต์ หรือแม้แต่ไฟล์ที่เจาะจงภายในเว็บไซต์ ไฟล์เหล่านี้ไม่เพียงแต่จะอ่านได้ด้วยเครื่องเท่านั้น แต่มนุษย์ก็อ่านได้ด้วย ซึ่งหมายความว่าจะมีคำตอบที่ชัดเจนว่า "ใช่" หรือ "ไม่" เสมอว่า Crawler บางตัวได้รับอนุญาตให้เข้าถึงหน้าเว็บในลักษณะอัตโนมัติหรือไม่
ทุกคนที่สร้าง Crawler จะต้องปฏิบัติตามคำสั่งเหล่านี้ตามมาตรฐาน และนักพัฒนาซอฟต์แวร์สามารถรองรับคำสั่งเหล่านี้ได้โดยง่าย เนื่องจากมีไลบรารีโอเพนซอร์สมากกว่า 1,000 รายการที่พร้อมใช้งานสำหรับนักพัฒนาซอฟต์แวร์ ไฟล์นี้จะให้คําสั่งแก่ Crawler เพื่อการ Crawl เว็บไซต์อย่างเหมาะสม เว็บไซต์สมัยใหม่อาจมีความซับซ้อน การไปยังส่วนต่างๆ โดยอัตโนมัติอาจเป็นเรื่องยาก และกฎ robots.txt จะช่วยให้ Crawler มุ่งเน้นที่เนื้อหาที่เหมาะสม นอกจากนี้ ยังช่วยให้ Crawler หลีกเลี่ยงหน้าเว็บที่สร้างแบบไดนามิกซึ่งอาจสร้างภาระให้กับเซิร์ฟเวอร์และทําให้การ Crawl มีประสิทธิภาพต่ำโดยไม่จำเป็น ผู้ให้บริการ Crawler เชิงพาณิชย์ส่วนใหญ่จะปฏิบัติตามไฟล์ robots.txt เนื่องจากไฟล์ดังกล่าวมีประโยชน์ทั้งในด้านเทคนิคและความสัมพันธ์กับเจ้าของเว็บไซต์
สร้างและขยายโดยสาธารณะ
ไฟล์ robots.txt ถือกำเนิดมาเกือบจะนานเท่ากับอินเทอร์เน็ต และเป็นหนึ่งในเครื่องมือสําคัญที่ทําให้อินเทอร์เน็ตทํางานได้ HTML ซึ่งเป็นรากฐานของหน้าเว็บได้ถือกำเนิดขึ้นในปี 1991 เบราว์เซอร์แรกเกิดขึ้นในปี 1992 และ robots.txt ปรากฏขึ้นในปี 1994 ซึ่งหมายความว่าบริษัทก่อตั้งขึ้นก่อน Google ที่ก่อตั้งในปี 1998 รูปแบบนี้แทบจะไม่มีการเปลี่ยนแปลงตั้งแต่นั้นมา และไฟล์ตั้งแต่ยุคแรกๆจะยังคงใช้งานได้อยู่ในปัจจุบัน มาตรฐานนี้ได้รับการยอมรับเป็นมาตรฐานที่ IETF เสนอในปี 2022 หลังจากได้รับการมีส่วนร่วมจากชุมชนทั่วโลกเป็นเวลา 3 ปี
หากคุณมีเว็บไซต์ ก็อาจมีไฟล์ robots.txt ด้วย ชุมชนเกี่ยวกับ robots.txt นั้นมีความคึกคักและมีเครื่องมือซอฟต์แวร์หลายพันรายการที่จะช่วยสร้าง ทดสอบ จัดการ หรือทําความเข้าใจไฟล์ robots.txt ในทุกรูปแบบ แต่ข้อดีของ robots.txt คือคุณไม่จำเป็นต้องใช้เครื่องมือไฮเทค คุณสามารถอ่านไฟล์ในเบราว์เซอร์ และสำหรับเว็บไซต์ที่คุณจัดการ คุณก็ปรับแต่งไฟล์ได้ในเครื่องมือแก้ไขข้อความธรรมดา
สิ่งที่ควรทำต่อไป...
รูปแบบของ robots.txt มีความยืดหยุ่น เรามีศักยภาพที่จะเติบโต ชุมชนเว็บสาธารณะสามารถขยายการให้บริการได้ และ Crawler สามารถประกาศการขยายการให้บริการเมื่อเหมาะสมได้โดยไม่รบกวนการใช้งานที่มีอยู่ เหตุการณ์นี้เกิดขึ้นในปี 2007 เมื่อเครื่องมือค้นหาประกาศเกี่ยวกับคําแนะนํา "Sitemap" นอกจากนี้ การเปลี่ยนแปลงยังเกิดขึ้นเป็นประจำเนื่องจากผู้ให้บริการ Crawler และเครื่องมือค้นหารองรับ "User Agent" ใหม่ เช่น ที่ใช้เพื่อวัตถุประสงค์ด้าน AI
robots.txt ยังคงมีการใช้งานต่อไป รูปแบบไฟล์ใหม่ต้องใช้เวลา 2-3 ปีจึงจะได้รับการยอมรับจากชุมชนอินเทอร์เน็ตส่วนมาก ส่วนเครื่องมือที่เหมาะสมที่จะทำให้รูปแบบไฟล์มีประโยชน์ต่อระบบนิเวศนั้นอาจใช้เวลานานกว่านั้น ใช้งานง่าย ละเอียดและแสดงออกได้ชัดเจน เป็นที่เข้าใจและยอมรับกันดี และใช้งานได้จริงเหมือนที่ใช้มาหลายทศวรรษแล้ว
หากต้องการทราบรายละเอียดเพิ่มเติม โปรดติดตามซีรีส์ "ทบทวนความรู้เรื่อง Robots" ฉบับถัดไปในบล็อก Search Central