Google 特殊爬虫列表
如果在被抓取的网站与产品之间就抓取过程达成协议,特定 Google 产品就会使用特殊爬虫。例如,AdsBot
会在广告发布商许可的情况下忽略全局 robots.txt 用户代理 (*
)。Google 抓取工具的常规技术属性也适用于特殊爬虫。
特殊情况下的抓取工具可能会忽略 robots.txt 规则,因此使用的 IP 范围不同于常见抓取工具。这些 IP 范围发布在 special-crawlers.json 对象中。
特殊爬虫的反向 DNS 掩码与 rate-limited-proxy-***-***-***-***.google.com
匹配。
下表列出了特殊爬虫、它们在 HTTP 请求中显示的用户代理字符串、它们在 robots.txt 中 User-agent:
行的用户代理令牌,以及受抓取工具抓取偏好设置影响的产品。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。
APIs-Google
-
HTTP 请求中的用户代理 APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
robots.txt robots.txt 中的用户代理令牌 APIs-Google
系统会忽略全局用户代理 (
*
)。robots.txt 组示例 user-agent: APIs-Google allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 APIs-Google
用户代理的抓取偏好设置会影响 Google API 传递推送通知消息的方式。 AdsBot Mobile Web
-
HTTP 请求中的用户代理 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
robots.txt robots.txt 中的用户代理令牌 AdsBot-Google-Mobile
系统会忽略全局用户代理 (
*
)。robots.txt 组示例 user-agent: AdsBot-Google-Mobile allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 AdsBot-Google-Mobile
用户代理的抓取偏好设置会影响 Google Ads 检查网页广告质量的能力。 AdsBot
-
HTTP 请求中的用户代理 AdsBot-Google (+http://www.google.com/adsbot.html)
robots.txt robots.txt 中的用户代理令牌 AdsBot-Google
系统会忽略全局用户代理 (
*
)。robots.txt 组示例 user-agent: AdsBot-Google allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 AdsBot-Google
用户代理的抓取偏好设置会影响 Google Ads 检查网页广告质量的能力。 AdSense
-
HTTP 请求中的用户代理 桌面版代理 Mediapartners-Google
移动版代理 (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
robots.txt robots.txt 中的用户代理令牌 Mediapartners-Google
系统会忽略全局用户代理 (
*
)。robots.txt 组示例 user-agent: Mediapartners-Google allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 Mediapartners-Google
用户代理的抓取偏好设置会影响 Google AdSense。AdSense 抓取工具会访问参与计划的网站,以便向其提供相关广告。 Google-Safety
-
HTTP 请求中的用户代理 Google-Safety
robots.txt Google-Safety 用户代理会忽略 robots.txt 规则。 受影响的产品 Google-Safety 用户代理负责处理针对滥用行为的抓取,例如对 Google 产品和服务上公开发布的链接进行恶意软件发现。因此,它不会受到抓取偏好设置的影响。
弃用的特殊爬虫
以下特殊爬虫已不再使用,此处仅作历史参考。
AdsBot Mobile Web
-
HTTP 请求中的用户代理 Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)
robots.txt robots.txt 中的用户代理令牌 AdsBot-Google-Mobile
系统会忽略全局用户代理 (
*
)。受影响的产品 针对 AdsBot-Google-Mobile
用户代理的抓取偏好设置会影响 Google Ads 检查 iPhone 网页广告质量的能力。 网页上的 Duplex
-
HTTP 请求中的用户代理 Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36
robots.txt robots.txt 中的用户代理令牌 DuplexWeb-Google
“网页上的 Duplex”可能会忽略
*
通配符。受影响的产品 支持“网页上的 Duplex”服务。 Google Favicon
-
HTTP 请求中的用户代理 Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon
robots.txt robots.txt 中的用户代理令牌 Googlebot-Image
Googlebot
Mobile Apps Android
-
HTTP 请求中的用户代理 AdsBot-Google-Mobile-Apps
robots.txt robots.txt 中的用户代理令牌 AdsBot-Google-Mobile-Apps
AdsBot-Google-Mobile-Apps
用户代理遵守了AdsBot-Google
漫游器规则,但忽略了全局用户代理 (*
)。受影响的产品 针对 AdsBot-Google-Mobile-Apps
用户代理的抓取偏好设置会影响 Google Ads 检查 Android 应用页面广告质量的能力。 Web Light
-
HTTP 请求中的用户代理 Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19
robots.txt robots.txt 中的用户代理令牌 googleweblight
googleweblight
用户代理仅用于人类访问者的明确浏览请求,因此会忽略用于屏蔽自动抓取请求的 robots.txt 规则。受影响的产品 每当用户在相应条件下在搜索结果中点击您的网页时,Web Light 用户代理都会检查是否存在 no-transform
标头。