Google 特殊爬虫列表

如果在被抓取的网站与产品之间就抓取过程达成协议,特定 Google 产品就会使用特殊爬虫。例如,AdsBot 会在广告发布商许可的情况下忽略全局 robots.txt 用户代理 (*)。Google 抓取工具的常规技术属性也适用于特殊爬虫。

特殊情况下的抓取工具可能会忽略 robots.txt 规则,因此使用的 IP 范围不同于常见抓取工具。这些 IP 范围发布在 special-crawlers.json 对象中。 特殊爬虫的反向 DNS 掩码与 rate-limited-proxy-***-***-***-***.google.com 匹配。

下表列出了特殊爬虫、它们在 HTTP 请求中显示的用户代理字符串、它们在 robots.txt 中 User-agent: 行的用户代理令牌,以及受抓取工具抓取偏好设置影响的产品。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。

HTTP 请求中的用户代理
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
robots.txt
robots.txt 中的用户代理令牌

APIs-Google


系统会忽略全局用户代理 (*)。

robots.txt 组示例
user-agent: APIs-Google
allow: /archive/1Q84
disallow: /archive/
受影响的产品 针对 APIs-Google 用户代理的抓取偏好设置会影响 Google API 传递推送通知消息的方式。
HTTP 请求中的用户代理
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
robots.txt
robots.txt 中的用户代理令牌

AdsBot-Google-Mobile


系统会忽略全局用户代理 (*)。

robots.txt 组示例
user-agent: AdsBot-Google-Mobile
allow: /archive/1Q84
disallow: /archive/
受影响的产品 针对 AdsBot-Google-Mobile 用户代理的抓取偏好设置会影响 Google Ads 检查网页广告质量的能力。
HTTP 请求中的用户代理
AdsBot-Google (+http://www.google.com/adsbot.html)
robots.txt
robots.txt 中的用户代理令牌

AdsBot-Google


系统会忽略全局用户代理 (*)。

robots.txt 组示例
user-agent: AdsBot-Google
allow: /archive/1Q84
disallow: /archive/
受影响的产品 针对 AdsBot-Google 用户代理的抓取偏好设置会影响 Google Ads 检查网页广告质量的能力。
HTTP 请求中的用户代理
桌面版代理
Mediapartners-Google
移动版代理
(Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
robots.txt
robots.txt 中的用户代理令牌 Mediapartners-Google

系统会忽略全局用户代理 (*)。

robots.txt 组示例
user-agent: Mediapartners-Google
allow: /archive/1Q84
disallow: /archive/
受影响的产品 针对 Mediapartners-Google 用户代理的抓取偏好设置会影响 Google AdSense。AdSense 抓取工具会访问参与计划的网站,以便向其提供相关广告。
HTTP 请求中的用户代理
Google-Safety
robots.txt Google-Safety 用户代理会忽略 robots.txt 规则。
受影响的产品 Google-Safety 用户代理负责处理针对滥用行为的抓取,例如对 Google 产品和服务上公开发布的链接进行恶意软件发现。因此,它不会受到抓取偏好设置的影响。

弃用的特殊爬虫

以下特殊爬虫已不再使用,此处仅作历史参考。

HTTP 请求中的用户代理
Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
robots.txt
robots.txt 中的用户代理令牌 AdsBot-Google-Mobile

系统会忽略全局用户代理 (*)。

受影响的产品 针对 AdsBot-Google-Mobile 用户代理的抓取偏好设置会影响 Google Ads 检查 iPhone 网页广告质量的能力。
HTTP 请求中的用户代理
Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
robots.txt
robots.txt 中的用户代理令牌 DuplexWeb-Google

“网页上的 Duplex”可能会忽略 * 通配符。

受影响的产品 支持“网页上的 Duplex”服务。
HTTP 请求中的用户代理
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
robots.txt
robots.txt 中的用户代理令牌 Googlebot-Image
Googlebot
HTTP 请求中的用户代理
AdsBot-Google-Mobile-Apps
robots.txt
robots.txt 中的用户代理令牌 AdsBot-Google-Mobile-Apps

AdsBot-Google-Mobile-Apps 用户代理遵守了 AdsBot-Google 漫游器规则,但忽略了全局用户代理 (*)。

受影响的产品 针对 AdsBot-Google-Mobile-Apps 用户代理的抓取偏好设置会影响 Google Ads 检查 Android 应用页面广告质量的能力。
HTTP 请求中的用户代理
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
robots.txt
robots.txt 中的用户代理令牌 googleweblight

googleweblight 用户代理仅用于人类访问者的明确浏览请求,因此会忽略用于屏蔽自动抓取请求的 robots.txt 规则。

受影响的产品 每当用户在相应条件下在搜索结果中点击您的网页时,Web Light 用户代理都会检查是否存在 no-transform 标头。