การยืนยัน Googlebot และโปรแกรมรวบรวมข้อมูลอื่นๆ ของ Google
คุณยืนยันได้ว่า Crawler ที่เข้าถึงเซิร์ฟเวอร์ของคุณคือ Crawler ของ Google จริง เช่น Googlebot วิธีนี้มีประโยชน์หากกังวลว่านักส่งสแปมหรือผู้ไม่ประสงค์ดีอื่นๆ กำลังเข้าถึงเว็บไซต์ของคุณโดยอ้างตัวเป็น Googlebot
Crawler ของ Google แบ่งออกเป็น 3 หมวดหมู่ดังนี้
ประเภท | คำอธิบาย | มาสก์ DNS แบบย้อนกลับ | ช่วง IP |
---|---|---|---|
Crawler ทั่วไป | Crawler ทั่วไปที่ใช้สำหรับผลิตภัณฑ์ของ Google (เช่น Googlebot) Crawler ประเภทนี้จะทำตามกฎของ robots.txt เสมอสําหรับการ Crawl โดยอัตโนมัติ |
crawl-***-***-***-***.googlebot.com หรือ geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Crawler กรณีพิเศษ | Crawler ที่ใช้ฟังก์ชันเฉพาะสำหรับผลิตภัณฑ์ของ Google (เช่น AdsBot) ซึ่งมีข้อตกลงระหว่างเว็บไซต์ที่ได้รับการ Crawl กับผลิตภัณฑ์เกี่ยวกับขั้นตอนการ Crawl Crawler เหล่านี้อาจทำตามหรือไม่ทำตามกฎของ robots.txt | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
ตัวดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ |
เครื่องมือและฟังก์ชันของผลิตภัณฑ์ที่ผู้ใช้ปลายทางเป็นผู้ทริกเกอร์การดึงข้อมูล เช่น เครื่องมือตรวจสอบเว็บไซต์จาก Google Sites จะทำตามคำขอของผู้ใช้ ตัวดึงข้อมูลเหล่านี้จะไม่สนใจกฎของ robots.txt เนื่องจากผู้ใช้เป็นผู้ขอการดึงข้อมูล ตัวดึงข้อมูลที่ควบคุมโดย Google จะมาจาก IP ในออบเจ็กต์ user-triggered-fetchers-google.json และแปลเป็นชื่อโฮสต์ google.com IP ในออบเจ็กต์ user-triggered-fetchers.json จะแปลเป็นชื่อโฮสต์ gae.googleusercontent.com ตัวอย่างเช่น ระบบจะใช้ IP เหล่านี้ หากเว็บไซต์ที่ทำงานบน Google Cloud (GCP) มีฟีเจอร์ที่ต้องดึงข้อมูลฟีด RSS ภายนอกตามคำขอของผู้ใช้เว็บไซต์นั้น
|
***-***-***-***.gae.googleusercontent.com หรือ google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json และ user-triggered-fetchers-google.json |
การยืนยัน Crawler ของ Google ทําได้ 2 วิธี ดังนี้
- ทำด้วยตนเอง: สําหรับการค้นหาแบบครั้งเดียว ให้ใช้เครื่องมือบรรทัดคําสั่ง โดยวิธีนี้เพียงพอแล้วสําหรับกรณีใช้งานส่วนใหญ่
- ทำโดยอัตโนมัติ: สําหรับการค้นหาขนาดใหญ่ ให้ใช้โซลูชันอัตโนมัติเพื่อจับคู่ที่อยู่ IP ของ Crawler กับรายการที่อยู่ IP ของ Googlebot ที่เผยแพร่
ใช้เครื่องมือบรรทัดคำสั่ง
-
เรียกใช้การค้นหา DNS แบบย้อนกลับกับที่อยู่ IP ที่เข้าถึงจากบันทึกของคุณโดยใช้คำสั่ง
host
-
ยืนยันว่าชื่อโดเมนเป็น
googlebot.com
,google.com
, หรือgoogleusercontent.com
-
เรียกใช้การค้นหา DNS แบบส่งต่อกับชื่อโดเมนที่ได้รับในขั้นตอนที่ 1 โดยใช้คำสั่ง
host
กับชื่อโดเมนที่ได้รับนั้น - จากนั้นตรวจดูว่าชื่อโดเมนที่ได้นั้นเป็นที่อยู่ IP เดิมที่เข้าถึงจากบันทึกของคุณ
ตัวอย่างที่ 1
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
ตัวอย่างที่ 2
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
ตัวอย่างที่ 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
ใช้โซลูชันอัตโนมัติ
หรือจะระบุ Googlebot ตามที่อยู่ IP ก็ได้ โดยจับคู่ที่อยู่ IP ของ Crawler กับรายการช่วง IP ของ Crawler และตัวดึงข้อมูลของ Google ดังนี้
- Crawler ทั่วไป เช่น Googlebot
- Crawler พิเศษ เช่น AdsBot
- การดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ (ผู้ใช้)
- การดึงข้อมูลที่ทริกเกอร์โดยผู้ใช้ (Google)
สําหรับที่อยู่ IP ของ Google อื่นๆ จากจุดที่อาจมีการเข้าถึงเว็บไซต์ของคุณ (เช่น Apps Script) ให้จับคู่ที่อยู่ IP ที่เข้าถึงกับรายการที่อยู่ IP ของ Google โปรดทราบว่าที่อยู่ IP ในไฟล์ JSON จะแสดงในรูปแบบ CIDR