验证 Googlebot

您可以验证访问您服务器的网页抓取工具是否确实是 Googlebot(或其他 Google 用户代理)。如果您担心自称是 Googlebot 的垃圾内容发布者或其他麻烦制造者在访问您的网站,则会发现该方法非常有用。Google 不会发布一个公开的 IP 地址列表供网站所有者添加到许可名单。这是因为这些 IP 地址范围可能会发生变化,从而给已对其进行硬编码的网站所有者带来麻烦。因此,您必须按照下述方法运行 DNS 查找。

如需验证抓取工具是否为 Googlebot,请执行以下操作

  1. 使用 host 命令对日志中访问服务器的 IP 地址运行 DNS 反向查找。
  2. 验证域名是 googlebot.com 还是 google.com
  3. 使用 host 命令对在第 1 步中检索到的域名运行 DNS 正向查找。验证该域名与日志中访问服务器的原始 IP 地址是否一致。

示例 1

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

示例 2

> host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

> host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77