ภาพรวมของ Crawler และตัวดึงข้อมูลของ Google (User Agent)
Google ใช้ Crawler และตัวดึงข้อมูลเพื่อดําเนินการต่างๆ กับผลิตภัณฑ์ ไม่ว่าจะแบบอัตโนมัติหรือที่ทริกเกอร์จากคําขอของผู้ใช้ "Crawler" (บางครั้งเรียกว่า "โรบ็อต" หรือ "สไปเดอร์") เป็นคําทั่วไปที่ใช้เรียกโปรแกรมสํารวจและสแกนเว็บไซต์ด้วยการติดตามลิงก์จากหน้าเว็บหนึ่งไปยังอีกหน้าเว็บหนึ่งโดยอัตโนมัติ ตัวดึงข้อมูลจะทํางานเป็นโปรแกรมอย่างเช่น wget ซึ่งโดยปกติจะส่งคำขอเดียวในนามของผู้ใช้ Crawler ของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้
Crawler ทั่วไป | Crawler ทั่วไปที่ใช้สำหรับผลิตภัณฑ์ของ Google (เช่น Googlebot) Crawler ประเภทนี้จะทำตามกฎของ robots.txt เสมอสําหรับการ Crawl โดยอัตโนมัติ |
Crawler กรณีพิเศษ |
Crawler กรณีพิเศษจะคล้ายกับ Crawler ทั่วไป แต่จะใช้โดยผลิตภัณฑ์ที่เฉพาะเจาะจง ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์ของ Google เกี่ยวกับขั้นตอนการ Crawl เช่น AdsBot จะไม่สนใจ User Agent ใน robots.txt ส่วนกลาง (* ) เมื่อได้รับอนุญาตจากผู้เผยแพร่โฆษณา
|
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ | ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้เป็นส่วนหนึ่งของเครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้ |
คุณสมบัติทางเทคนิคของ Crawler และตัวดึงข้อมูลของ Google
Crawler และตัวดึงข้อมูลของ Google ได้รับการออกแบบมาให้รองรับการเรียกใช้งานจากเครื่องหลายพันเครื่องพร้อมกันเพื่อปรับปรุงประสิทธิภาพการทำงานและขนาดในขณะที่เว็บเติบโตขึ้น เรามีไคลเอ็นต์เหล่านี้กระจายอยู่ในศูนย์ข้อมูลหลายแห่งทั่วโลกเพื่อให้อยู่ใกล้กับเว็บไซต์ที่อาจเข้าถึง เพื่อเพิ่มประสิทธิภาพการใช้แบนด์วิดท์ ดังนั้น บันทึกของคุณจึงอาจแสดงการเข้าชมจากที่อยู่ IP หลายรายการ Google ออกข้อมูลจากที่อยู่ IP ในสหรัฐอเมริกาเป็นหลัก ในกรณีที่ Google ตรวจพบว่าเว็บไซต์หนึ่งบล็อกคำขอจากสหรัฐอเมริกา เว็บไซต์อาจพยายามทำการ Crawl จากที่อยู่ IP ในประเทศอื่นๆ
Crawler และตัวดึงข้อมูลของ Google ใช้ HTTP/1.1 และ HTTP/2 หากเว็บไซต์รองรับ การ Crawl ผ่าน HTTP/2 อาจช่วยประหยัดทรัพยากรการประมวลผล (เช่น CPU, RAM) ของเว็บไซต์และ Googlebot อย่างไรก็ตาม เว็บไซต์จะไม่มีประโยชน์เฉพาะผลิตภัณฑ์ (เช่น ไม่มีการช่วยเพิ่มอันดับใน Google Search)
หากเลือกที่จะไม่ทำการ Crawl ผ่าน HTTP/2 ให้กำหนดให้เซิร์ฟเวอร์ที่โฮสต์เว็บไซต์ตอบกลับด้วยรหัสสถานะ HTTP 421
เมื่อ Google พยายามทำการ Crawl เว็บไซต์ผ่าน HTTP/2 หากทําไม่ได้ คุณสามารถส่งข้อความถึงทีมการ Crawl (เป็นวิธีแก้ปัญหาชั่วคราวเท่านั้น)
Crawler และตัวดึงข้อมูลของ Google รองรับการเข้ารหัสเนื้อหา (การบีบอัด) ต่อไปนี้
gzip,
deflate และ
Brotli (br) การเข้ารหัสเนื้อหาที่ User Agent ของ Google แต่ละรายการรองรับจะแสดงอยู่ในส่วนหัว Accept-Encoding
ของคำขอแต่ละรายการ เช่น Accept-Encoding: gzip, deflate, br
เป้าหมายของเราคือทำการ Crawl หน้าเว็บในเว็บไซต์ของคุณให้มากที่สุดในการเข้าชมแต่ละครั้ง โดยไม่ทําให้เซิร์ฟเวอร์ของคุณทํางานหนักเกินไป หากเว็บไซต์ของคุณมีปัญหาในการตอบกลับคำขอทำการ Crawl ของ Google ไม่ทัน ให้ลดอัตราการ Crawl โปรดทราบว่าการส่งโค้ดตอบกลับ HTTP ที่ไม่เหมาะสมไปยัง Crawler ของ Google อาจส่งผลต่อลักษณะที่เว็บไซต์ของคุณปรากฏในผลิตภัณฑ์ของ Google
การยืนยัน Crawler และตัวดึงข้อมูลของ Google
Crawler ของ Google จะระบุตัวตนด้วยวิธีต่อไปนี้
-
ส่วนหัวคำขอ HTTP
user-agent
- ที่อยู่ IP ต้นทางของคำขอ
- ชื่อโฮสต์ DNS แบบย้อนกลับของ IP ต้นทาง
ดูวิธีใช้รายละเอียดเหล่านี้เพื่อยืนยัน Crawler และตัวดึงข้อมูลของ Google