ภาพรวมของ Crawler และตัวดึงข้อมูลของ Google (User Agent)

Google ใช้ Crawler และตัวดึงข้อมูลเพื่อดําเนินการต่างๆ กับผลิตภัณฑ์ ไม่ว่าจะแบบอัตโนมัติหรือที่ทริกเกอร์จากคําขอของผู้ใช้ "Crawler" (บางครั้งเรียกว่า "โรบ็อต" หรือ "สไปเดอร์") เป็นคําทั่วไปที่ใช้เรียกโปรแกรมสํารวจและสแกนเว็บไซต์ด้วยการติดตามลิงก์จากหน้าเว็บหนึ่งไปยังอีกหน้าเว็บหนึ่งโดยอัตโนมัติ ตัวดึงข้อมูลจะทํางานเป็นโปรแกรมอย่างเช่น wget ซึ่งโดยปกติจะส่งคำขอเดียวในนามของผู้ใช้ Crawler ของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้

Crawler ทั่วไป Crawler ทั่วไปที่ใช้สำหรับผลิตภัณฑ์ของ Google (เช่น Googlebot) Crawler ประเภทนี้จะทำตามกฎของ robots.txt เสมอสําหรับการ Crawl โดยอัตโนมัติ
Crawler กรณีพิเศษ Crawler กรณีพิเศษจะคล้ายกับ Crawler ทั่วไป แต่จะใช้โดยผลิตภัณฑ์ที่เฉพาะเจาะจง ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์ของ Google เกี่ยวกับขั้นตอนการ Crawl เช่น AdsBot จะไม่สนใจ User Agent ใน robots.txt ส่วนกลาง (*) เมื่อได้รับอนุญาตจากผู้เผยแพร่โฆษณา
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้เป็นส่วนหนึ่งของเครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้

คุณสมบัติทางเทคนิคของ Crawler และตัวดึงข้อมูลของ Google

Crawler และตัวดึงข้อมูลของ Google ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น เรามีไคลเอ็นต์เหล่านี้กระจายอยู่ในศูนย์ข้อมูลหลายแห่งทั่วโลกเพื่อให้อยู่ใกล้กับเว็บไซต์ที่อาจเข้าถึง เพื่อเพิ่มประสิทธิภาพการใช้แบนด์วิดท์ ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากที่อยู่ IP หลายรายการ Google ออกข้อมูลจากที่อยู่ IP ในสหรัฐอเมริกาเป็นหลัก ในกรณีที่ Google ตรวจพบว่าเว็บไซต์หนึ่งบล็อกคำขอจากสหรัฐอเมริกา เว็บไซต์อาจพยายามทำการ Crawl จากที่อยู่ IP ในประเทศอื่นๆ

Crawler และตัวดึงข้อมูลของ Google ใช้ HTTP/1.1 และ HTTP/2 หากเว็บไซต์รองรับ การ Crawl ผ่าน HTTP/2 อาจช่วยประหยัดทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot อย่างไรก็ตาม เว็บไซต์จะไม่มีประโยชน์เฉพาะผลิตภัณฑ์ (เช่น ไม่มีการช่วยเพิ่มอันดับใน Google Search) หากเลือกที่จะไม่ทำการ Crawl ผ่าน HTTP/2 ให้กำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421 เมื่อ Google พยายามทำการ Crawl เว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีมการ Crawl (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)

Crawler และตัวดึงข้อมูลของ Google รองรับการเข้ารหัสเนื้อหา (การบีบอัด) ต่อไปนี้ gzip, deflate และ Brotli (br) การเข้ารหัสเนื้อหาที่ User Agent ของ Google แต่ละรายการรองรับจะแสดงอยู่ในส่วนหัว Accept-Encoding ของคำขอแต่ละรายการ เช่น Accept-Encoding: gzip, deflate, br

เป้าหมายของเราคือทำการ Crawl หน้าเว็บในเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทําให้เซิร์ฟเวอร์ของคุณทํางานหนักเกินไป หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคำขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl โปรดทราบว่าการส่งโค้ดตอบกลับ HTTP ที่ไม่เหมาะสมไปยัง Crawler ของ Google อาจส่งผลต่อลักษณะที่เว็บไซต์ของคุณปรากฏในผลิตภัณฑ์ของ Google

การยืนยัน Crawler และตัวดึงข้อมูลของ Google

Crawler ของ Google จะระบุตัวตนด้วยวิธีต่อไปนี้

  1. ส่วนหัวคำขอ HTTP user-agent
  2. ที่อยู่ IP ต้นทางของคำขอ
  3. ชื่อโฮสต์ DNS แบบย้อนกลับของ IP ต้นทาง

ดูวิธีใช้รายละเอียดเหล่านี้เพื่อยืนยัน Crawler และตัวดึงข้อมูลของ Google