ยืนยันคำขอจาก Crawler และตัวดึงข้อมูลของ Google

คุณยืนยันได้ว่าคำขอที่ส่งไปยังเซิร์ฟเวอร์ของคุณมาจาก Google จริงหรือไม่ การยืนยันสามารถทำได้สำหรับ Crawler เช่น Googlebot รวมถึงคำขออื่นๆ วิธีนี้มีประโยชน์หากกังวลว่านักส่งสแปมหรือผู้ไม่ประสงค์ดีอื่นๆ กำลังเข้าถึงเว็บไซต์ของคุณโดยอ้างตัวว่ามาจาก Google

Crawler และตัวดึงข้อมูลของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้

ประเภท	คำอธิบาย	มาสก์ DNS แบบย้อนกลับ	ช่วง IP
Crawler ทั่วไป	Crawler ทั่วไปที่ใช้สำหรับผลิตภัณฑ์ของ Google (เช่น Googlebot) Crawler ประเภทนี้จะทำตามกฎของ robots.txt เสมอสําหรับการ Crawl โดยอัตโนมัติ	`crawl-*---.googlebot.com` หรือ `geo-crawl----*.geo.googlebot.com`	common-crawlers.json
Crawler กรณีพิเศษ	Crawler หรือ Fetcher ที่ใช้ฟังก์ชันเฉพาะสำหรับผลิตภัณฑ์ของ Google (เช่น AdsBot) ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์เกี่ยวกับการเข้าถึง หรือสำหรับการ Crawl หรือการดึงข้อมูลที่เฉพาะเจาะจงการละเมิด Crawler หรือตัวดึงข้อมูลเหล่านี้อาจทำตามหรือไม่ทำตามกฎของ robots.txt	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้	เครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้ ตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล ตัวดึงข้อมูลที่ควบคุมโดย Google จะมาจาก IP ในออบเจ็กต์ `user-triggered-fetchers-google.json` และแปลเป็นชื่อโฮสต์ `google.com` IP ในออบเจ็กต์ `user-triggered-fetchers.json` จะแปลเป็นชื่อโฮสต์ `gae.googleusercontent.com` ตัวอย่างเช่น ระบบจะใช้ IP เหล่านี้ หากเว็บไซต์ที่ทำงานบน Google Cloud (GCP) มีฟีเจอร์ที่ต้องดึงข้อมูลฟีด RSS ภายนอกตามคำขอของผู้ใช้เว็บไซต์นั้น	`*---.gae.googleusercontent.com` หรือ `google-proxy----*.google.com`	user-triggered-fetchers.json user-triggered-fetchers-google.json และ user-triggered-agents.json

การยืนยันคำขอจาก Google ทำได้ 2 วิธี ดังนี้

ทำด้วยตนเอง: สําหรับการค้นหาแบบครั้งเดียว ให้ใช้เครื่องมือบรรทัดคําสั่ง โดยวิธีนี้เพียงพอแล้วสําหรับกรณีใช้งานส่วนใหญ่
ทำโดยอัตโนมัติ: สําหรับการค้นหาขนาดใหญ่ ให้ใช้โซลูชันอัตโนมัติเพื่อจับคู่ที่อยู่ IP ของ Crawler กับรายการที่อยู่ IP ของ Google ที่เผยแพร่

ใช้เครื่องมือบรรทัดคำสั่ง

เรียกใช้การค้นหา DNS แบบย้อนกลับกับที่อยู่ IP ที่เข้าถึงจากบันทึกของคุณโดยใช้คำสั่ง host
ยืนยันว่าชื่อโดเมนเป็น googlebot.com, google.com, หรือ googleusercontent.com
เรียกใช้การค้นหา DNS แบบส่งต่อกับชื่อโดเมนที่ได้รับในขั้นตอนที่ 1 โดยใช้คำสั่ง host กับชื่อโดเมนที่ได้รับนั้น
จากนั้นตรวจดูว่าชื่อโดเมนที่ได้นั้นเป็นที่อยู่ IP เดิมที่เข้าถึงจากบันทึกของคุณ

ตัวอย่างที่ 1

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

ตัวอย่างที่ 2

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

ตัวอย่างที่ 3:

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

ใช้โซลูชันอัตโนมัติ

หรือจะระบุ Googlebot ตามที่อยู่ IP ก็ได้ โดยจับคู่ที่อยู่ IP ของ Crawler กับรายการช่วง IP ของ Crawler และตัวดึงข้อมูลของ Google ดังนี้

สําหรับที่อยู่ IP ของ Google อื่นๆ จากจุดที่อาจมีการเข้าถึงเว็บไซต์ของคุณ (เช่น Apps Script) ให้จับคู่ที่อยู่ IP ที่เข้าถึงกับรายการที่อยู่ IP ของ Google โปรดทราบว่าที่อยู่ IP ในไฟล์ JSON จะแสดงในรูปแบบ CIDR