การยืนยัน Googlebot และโปรแกรมรวบรวมข้อมูลอื่นๆ ของ Google

คุณยืนยันได้ว่า Crawler ที่เข้าถึงเซิร์ฟเวอร์ของคุณคือ Crawler ของ Google จริง เช่น Googlebot วิธีนี้มีประโยชน์หากกังวลว่านักส่งสแปมหรือผู้ไม่ประสงค์ดีอื่นๆ กำลังเข้าถึงเว็บไซต์ของคุณโดยอ้างตัวเป็น Googlebot

Crawler ของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้

ประเภท คำอธิบาย มาสก์ DNS แบบย้อนกลับ ช่วง IP
Crawler ทั่วไป Crawler ทั่วไปที่ใช้สำหรับผลิตภัณฑ์ของ Google (เช่น Googlebot) Crawler ประเภทนี้จะทำตามกฎของ robots.txt เสมอสําหรับการ Crawl โดยอัตโนมัติ crawl-***-***-***-***.googlebot.com หรือ geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Crawler กรณีพิเศษ Crawler ที่ใช้ฟังก์ชันเฉพาะสำหรับผลิตภัณฑ์ของ Google (เช่น AdsBot) ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์เกี่ยวกับขั้นตอนการ Crawl Crawler เหล่านี้อาจทำตามหรือไม่ทำตามกฎของ robots.txt rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ เครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้ ตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล
ตัวดึงข้อมูลที่ควบคุมโดย Google จะมาจาก IP ในออบเจ็กต์ user-triggered-fetchers-google.json และแปลเป็นชื่อโฮสต์ google.com IP ในออบเจ็กต์ user-triggered-fetchers.json จะแปลเป็นชื่อโฮสต์ gae.googleusercontent.com ตัวอย่างเช่น ระบบจะใช้ IP เหล่านี้ หากเว็บไซต์ที่ทำงานบน Google Cloud (GCP) มีฟีเจอร์ที่ต้องดึงข้อมูลฟีด RSS ภายนอกตามคำขอของผู้ใช้เว็บไซต์นั้น
***-***-***-***.gae.googleusercontent.com หรือ google-proxy-***-***-***-***.google.com user-triggered-fetchers.json และ user-triggered-fetchers-google.json

การยืนยัน Crawler ของ Google ทําได้ 2 วิธี ดังนี้

  • ทำด้วยตนเอง: สําหรับการค้นหาแบบครั้งเดียว ให้ใช้เครื่องมือบรรทัดคําสั่ง โดยวิธีนี้เพียงพอแล้วสําหรับกรณีใช้งานส่วนใหญ่
  • ทำโดยอัตโนมัติ: สําหรับการค้นหาขนาดใหญ่ ให้ใช้โซลูชันอัตโนมัติเพื่อจับคู่ที่อยู่ IP ของ Crawler กับรายการที่อยู่ IP ของ Googlebot ที่เผยแพร่

ใช้เครื่องมือบรรทัดคำสั่ง

  1. เรียกใช้การค้นหา DNS แบบย้อนกลับกับที่อยู่ IP ที่เข้าถึงจากบันทึกของคุณโดยใช้คำสั่ง host
  2. ยืนยันว่าชื่อโดเมนเป็น googlebot.com, google.com, หรือ googleusercontent.com
  3. เรียกใช้การค้นหา DNS แบบส่งต่อกับชื่อโดเมนที่ได้รับในขั้นตอนที่ 1 โดยใช้คำสั่ง host กับชื่อโดเมนที่ได้รับนั้น
  4. จากนั้นตรวจดูว่าชื่อโดเมนที่ได้นั้นเป็นที่อยู่ IP เดิมที่เข้าถึงจากบันทึกของคุณ

ตัวอย่างที่ 1

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

ตัวอย่างที่ 2

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

ตัวอย่างที่ 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

ใช้โซลูชันอัตโนมัติ

หรือจะระบุ Googlebot ตามที่อยู่ IP ก็ได้ โดยจับคู่ที่อยู่ IP ของ Crawler กับรายการช่วง IP ของ Crawler และตัวดึงข้อมูลของ Google ดังนี้

สําหรับที่อยู่ IP ของ Google อื่นๆ จากจุดที่อาจมีการเข้าถึงเว็บไซต์ของคุณ (เช่น Apps Script) ให้จับคู่ที่อยู่ IP ที่เข้าถึงกับรายการที่อยู่ IP ของ Google โปรดทราบว่าที่อยู่ IP ในไฟล์ JSON จะแสดงในรูปแบบ CIDR