Google 常用抓取工具列表
Google 的常用抓取工具用于查找信息,以便构建 Google 搜索索引、执行其他产品特定抓取以及进行分析。在自动抓取时,它们始终会遵循 robots.txt 规则。Google 抓取工具的常规技术属性也适用于常用抓取工具。
常用抓取工具通常会从 googlebot.json 对象中发布的 IP 范围进行抓取,并且其主机名的反向 DNS 掩码与 crawl-***-***-***-***.googlebot.com
或 geo-crawl-***-***-***-***.geo.googlebot.com
匹配。
下表列出了常用抓取工具、它们在 HTTP 请求中显示的用户代理字符串、它们在 robots.txt 中 User-agent:
行的用户代理令牌,以及受抓取工具抓取偏好设置影响的产品。某些抓取工具有多个用户代理令牌;但您只需使用与相应抓取工具匹配的 1 个令牌,即可应用规则。此列表并非详尽无遗,仅涵盖更有可能出现在日志文件中且我们收到过相关问题的请求者。
-
Googlebot
-
HTTP 请求中的 User-Agent
Googlebot(智能手机版) Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot(桌面版) Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
很少:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Googlebot/2.1 (+http://www.google.com/bot.html)
robots.txt robots.txt 中的用户代理令牌 Googlebot
robots.txt 组示例 user-agent: Googlebot allow: /archive/1Q84 disallow: /archive
受影响的产品 针对 Googlebot
用户代理的抓取偏好设置会影响 Google 搜索(包括 Google 探索和所有 Google 搜索功能)以及 Google 图片、Google 视频、Google 新闻和 Google 探索等其他产品。 Googlebot Image
-
HTTP 请求中的用户代理 Googlebot-Image/1.0
robots.txt robots.txt 中的用户代理令牌 Googlebot-Image
Googlebot
robots.txt 组示例 user-agent: Googlebot-Image allow: /archive/1Q84 disallow: /archive/moons.jpg
受影响的产品 针对 Googlebot-Image
用户代理的抓取偏好设置会影响 Google 图片、Google 探索、Google 视频以及 Google 搜索中显示图片、徽标和网站图标的所有功能。 Googlebot Video
-
HTTP 请求中的用户代理 Googlebot-Video/1.0
robots.txt robots.txt 中的用户代理令牌 Googlebot-Video
Googlebot
robots.txt 组示例 user-agent: Googlebot-Video allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 Googlebot-Video
用户代理的抓取偏好设置会影响与视频相关的 Google 搜索功能以及依赖于视频的其他产品。 Googlebot News
-
HTTP 请求中的用户代理 Googlebot-news 没有单独的 HTTP 请求用户代理字符串。抓取操作是使用各种 Googlebot 用户代理字符串进行的。 robots.txt robots.txt 中的用户代理令牌 Googlebot-News
Googlebot
robots.txt 组示例 user-agent: Googlebot-News allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 Googlebot-News
用户代理的抓取偏好设置会影响 Google 新闻的所有界面(例如,Google 搜索中的“新闻”标签页和 Google 新闻应用)。 Google StoreBot
-
HTTP 请求中的用户代理 桌面版代理 Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
移动版代理 Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36
robots.txt robots.txt 中的用户代理令牌 Storebot-Google
robots.txt 组示例 user-agent: Storebot-Google allow: /archive/1Q84 disallow: /archive/konbini
受影响的产品 针对 Storebot-Google
用户代理的抓取偏好设置会影响 Google 购物的所有界面(例如,Google 搜索中的“购物”标签页和 Google 购物)。 Google-InspectionTool
-
HTTP 请求中的用户代理 桌面版代理 Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)
移动版代理 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
robots.txt robots.txt 中的用户代理令牌 Google-InspectionTool
Googlebot
robots.txt 组示例 user-agent: Google-InspectionTool allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 Google-InspectionTool
用户代理的抓取偏好设置会影响 Search Console 中的搜索测试工具,例如富媒体搜索结果测试和网址检查。它不会影响 Google 搜索或其他产品。 GoogleOther
-
HTTP 请求中的用户代理 Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
robots.txt robots.txt 中的用户代理令牌 GoogleOther
robots.txt 组示例 user-agent: GoogleOther allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 GoogleOther
用户代理的抓取偏好设置不会影响任何特定产品。GoogleOther 是可供各种产品团队用于从网站中抓取可公开访问的内容的通用抓取工具。例如,它可能会用于一次性抓取,供内部研究和开发。 它不会影响 Google 搜索或其他产品。 GoogleOther-Image
-
HTTP 请求中的用户代理 GoogleOther-Image/1.0
robots.txt robots.txt 中的用户代理令牌 GoogleOther-Image
GoogleOther
robots.txt 组示例 user-agent: GoogleOther-Image allow: /archive/1Q84 disallow: /archive/moon.jpg
受影响的产品 针对 GoogleOther-Image
用户代理的抓取偏好设置不会影响任何特定产品,与 GoogleOther 类似。GoogleOther-Image 是 GoogleOther 的优化版本,用于获取可公开访问的图片网址。 GoogleOther-Video
-
HTTP 请求中的用户代理 GoogleOther-Video/1.0
robots.txt robots.txt 中的用户代理令牌 GoogleOther-Video
GoogleOther
robots.txt 组示例 user-agent: GoogleOther-Video allow: /archive/1Q84 disallow: /archive
受影响的产品 针对 GoogleOther-Video
用户代理的抓取偏好设置不会影响任何特定产品,与 GoogleOther 类似。GoogleOther-Video 是 GoogleOther 的优化版本,用于获取可公开访问的视频网址。 Google-CloudVertexBot
-
HTTP 请求中的用户代理子字符串 Google-CloudVertexBot
robots.txt robots.txt 中的用户代理令牌 Google-CloudVertexBot
Googlebot
robots.txt 组示例 user-agent: Google-CloudVertexBot allow: /archive/1Q84 disallow: /archive/
受影响的产品 针对 Google-CloudVertexBot
用户代理的抓取偏好设置会影响网站所有者为构建 Vertex AI 代理而请求的抓取。 它不会影响 Google 搜索或其他产品。 Google-Extended
-
HTTP 请求中的用户代理 Google-Extended 没有单独的 HTTP 请求用户代理字符串。抓取操作是使用现有的 Google 用户代理字符串进行的;robots.txt 用户代理令牌用于控制权限。 robots.txt robots.txt 中的用户代理令牌 Google-Extended
robots.txt 组示例 user-agent: Google-Extended allow: /archive/1Q84 disallow: /archive/
受影响的产品 Google-Extended
是一个独立的产品令牌,供网站发布商用于管理其网站是否帮助改进 Gemini 应用和 Vertex AI 生成式 API,包括为这些产品提供支持的模型的未来版本。 在 Vertex AI 上使用 Google 搜索接地不会使用已禁止 Google-Extended 的网页接地。 Google-Extended 不会对网站列入 Google 搜索结果及其在搜索结果中的排名产生影响。
关于用户代理中的 Chrome/W.X.Y.ZW.X.Y.Z 的说明
列表中的用户代理字符串中有时会出现 Chrome/W.X.Y.Z 字符串,W.X.Y.Z 实际上是一个占位符,代表该用户代理使用的 Chrome 浏览器版本,例如 41.0.2272.96
。随着时间的推移,此版本号会增大,以便与 Googlebot 使用的最新 Chromium 发布版本相匹配。
如果您要搜索日志或过滤服务器以查找使用此格式的用户代理,请用通配符表示版本号,而不是指定确切的版本号。