ขอแนะนําซีรีส์ใหม่ "ทบทวนความรู้เรื่อง Robots"

วันจันทร์ที่ 24 กุมภาพันธ์ 2025

บางครั้งเราได้รับคําถามเกี่ยวกับ robots.txt, เมตาแท็ก robots และฟังก์ชันการควบคุมที่เสนอ จากชุดบทความเกี่ยวกับ Crawling ในเดือนธันวาคม เราคิดว่านี่จะเป็นโอกาสที่ดีในการทบทวนข้อมูลคร่าวๆ ดังนั้น หากคุณอยากรู้เกี่ยวกับการควบคุมเหล่านี้ โปรดติดตามอ่านซีรีส์บล็อกโพสต์ใหม่นี้

มาเริ่มกันที่ robots.txt

ว่าแต่ robots.txt คืออะไร

"robots.txt" เป็นไฟล์ที่เว็บไซต์ใดก็ได้มี รูปแบบที่ง่ายที่สุดคือไฟล์ข้อความที่จัดเก็บอยู่ในเซิร์ฟเวอร์ เว็บไซต์เกือบทุกแห่งมีไฟล์ robots.txt หากต้องการดูตัวอย่าง ให้นำชื่อโดเมนมาเพิ่ม /robots.txt ต่อท้าย แล้วเรียกดูที่ที่อยู่นั้น เช่น ไฟล์ robots.txt ของเว็บไซต์นี้อยู่ที่ developers.google.com/robots.txt

เว็บไซต์ส่วนใหญ่ใช้ระบบจัดการเนื้อหา (CMS) ที่สร้างไฟล์เหล่านี้โดยอัตโนมัติ แต่การสร้างไฟล์เหล่านี้ก็ไม่ใช่เรื่องยากแม้ว่าคุณจะสร้างเว็บไซต์ "ด้วยตนเอง" เราจะพูดถึงรูปแบบต่างๆ ในโพสต์ในอนาคต

ไฟล์เหล่านี้มีไว้เพื่ออะไร

ไฟล์ robots.txt จะบอก Crawler ของเว็บไซต์ว่าส่วนใดของเว็บไซต์ที่เข้าถึงได้โดยอัตโนมัติ (เราเรียกกระบวนการนี้ว่า "การ Crawl") และส่วนใดที่เข้าถึงไม่ได้ ซึ่งช่วยให้เว็บไซต์สามารถจัดการทุกอย่างได้ตั้งแต่ทั้งเว็บไซต์ บางส่วนของเว็บไซต์ หรือแม้แต่ไฟล์ที่เจาะจงภายในเว็บไซต์ ไฟล์เหล่านี้ไม่เพียงแต่จะอ่านได้ด้วยเครื่องเท่านั้น แต่มนุษย์ก็อ่านได้ด้วย ซึ่งหมายความว่าจะมีคำตอบที่ชัดเจนว่า "ใช่" หรือ "ไม่" เสมอว่า Crawler บางตัวได้รับอนุญาตให้เข้าถึงหน้าเว็บในลักษณะอัตโนมัติหรือไม่

ทุกคนที่สร้าง Crawler จะต้องปฏิบัติตามคำสั่งเหล่านี้ตามมาตรฐาน และนักพัฒนาซอฟต์แวร์สามารถรองรับคำสั่งเหล่านี้ได้โดยง่าย เนื่องจากมีไลบรารีโอเพนซอร์สมากกว่า 1,000 รายการที่พร้อมใช้งานสำหรับนักพัฒนาซอฟต์แวร์ ไฟล์นี้จะให้คําสั่งแก่ Crawler เพื่อการ Crawl เว็บไซต์อย่างเหมาะสม เว็บไซต์สมัยใหม่อาจมีความซับซ้อน การไปยังส่วนต่างๆ โดยอัตโนมัติอาจเป็นเรื่องยาก และกฎ robots.txt จะช่วยให้ Crawler มุ่งเน้นที่เนื้อหาที่เหมาะสม นอกจากนี้ ยังช่วยให้ Crawler หลีกเลี่ยงหน้าเว็บที่สร้างแบบไดนามิกซึ่งอาจสร้างภาระให้กับเซิร์ฟเวอร์และทําให้การ Crawl มีประสิทธิภาพต่ำโดยไม่จำเป็น ผู้ให้บริการ Crawler เชิงพาณิชย์ส่วนใหญ่จะปฏิบัติตามไฟล์ robots.txt เนื่องจากไฟล์ดังกล่าวมีประโยชน์ทั้งในด้านเทคนิคและความสัมพันธ์กับเจ้าของเว็บไซต์

สร้างและขยายโดยสาธารณะ

ไฟล์ robots.txt ถือกำเนิดมาเกือบจะนานเท่ากับอินเทอร์เน็ต และเป็นหนึ่งในเครื่องมือสําคัญที่ทําให้อินเทอร์เน็ตทํางานได้ HTML ซึ่งเป็นรากฐานของหน้าเว็บได้ถือกำเนิดขึ้นในปี 1991 เบราว์เซอร์แรกเกิดขึ้นในปี 1992 และ robots.txt ปรากฏขึ้นในปี 1994 ซึ่งหมายความว่าบริษัทก่อตั้งขึ้นก่อน Google ที่ก่อตั้งในปี 1998 รูปแบบนี้แทบจะไม่มีการเปลี่ยนแปลงตั้งแต่นั้นมา และไฟล์ตั้งแต่ยุคแรกๆจะยังคงใช้งานได้อยู่ในปัจจุบัน มาตรฐานนี้ได้รับการยอมรับเป็นมาตรฐานที่ IETF เสนอในปี 2022 หลังจากได้รับการมีส่วนร่วมจากชุมชนทั่วโลกเป็นเวลา 3 ปี

หากคุณมีเว็บไซต์ ก็อาจมีไฟล์ robots.txt ด้วย ชุมชนเกี่ยวกับ robots.txt นั้นมีความคึกคักและมีเครื่องมือซอฟต์แวร์หลายพันรายการที่จะช่วยสร้าง ทดสอบ จัดการ หรือทําความเข้าใจไฟล์ robots.txt ในทุกรูปแบบ แต่ข้อดีของ robots.txt คือคุณไม่จำเป็นต้องใช้เครื่องมือไฮเทค คุณสามารถอ่านไฟล์ในเบราว์เซอร์ และสำหรับเว็บไซต์ที่คุณจัดการ คุณก็ปรับแต่งไฟล์ได้ในเครื่องมือแก้ไขข้อความธรรมดา

สิ่งที่ควรทำต่อไป...

รูปแบบของ robots.txt มีความยืดหยุ่น เรามีศักยภาพที่จะเติบโต ชุมชนเว็บสาธารณะสามารถขยายการให้บริการได้ และ Crawler สามารถประกาศการขยายการให้บริการเมื่อเหมาะสมได้โดยไม่รบกวนการใช้งานที่มีอยู่ เหตุการณ์นี้เกิดขึ้นในปี 2007 เมื่อเครื่องมือค้นหาประกาศเกี่ยวกับคําแนะนํา "Sitemap" นอกจากนี้ การเปลี่ยนแปลงยังเกิดขึ้นเป็นประจำเนื่องจากผู้ให้บริการ Crawler และเครื่องมือค้นหารองรับ "User Agent" ใหม่ เช่น ที่ใช้เพื่อวัตถุประสงค์ด้าน AI

robots.txt ยังคงมีการใช้งานต่อไป รูปแบบไฟล์ใหม่ต้องใช้เวลา 2-3 ปีจึงจะได้รับการยอมรับจากชุมชนอินเทอร์เน็ตส่วนมาก ส่วนเครื่องมือที่เหมาะสมที่จะทำให้รูปแบบไฟล์มีประโยชน์ต่อระบบนิเวศนั้นอาจใช้เวลานานกว่านั้น ใช้งานง่าย ละเอียดและแสดงออกได้ชัดเจน เป็นที่เข้าใจและยอมรับกันดี และใช้งานได้จริงเหมือนที่ใช้มาหลายทศวรรษแล้ว

หากต้องการทราบรายละเอียดเพิ่มเติม โปรดติดตามซีรีส์ "ทบทวนความรู้เรื่อง Robots" ฉบับถัดไปในบล็อก Search Central

โพสต์โดย John Mueller จากทีม Search Relations ของ Google Zurich

ว่าแต่ robots.txt คืออะไร

ไฟล์เหล่านี้มีไว้เพื่ออะไร

สร้างและขยายโดยสาธารณะ

สิ่งที่ควรทำต่อไป...

ดูซีรีส์ "ทบทวนความรู้เรื่อง Robots" ที่เหลือได้ที่: