Google 如何抓取语言区域自适应网页
如果您的网站包含语言区域自适应网页(也就是说,您的网站会根据检测到的访问者所在国家/地区或访问者首选语言返回不同的内容),Google 可能不会将您的不同语言区域网页的所有内容都纳入抓取/索引/排名范围。这是因为,Googlebot 抓取工具的默认 IP 地址看起来是位于美国境内的。另外,该抓取工具在发送 HTTP 请求时并不会在请求标头中设置 Accept-Language
。
基于地理位置的抓取
除了使用美国境内的 IP 地址之外,Googlebot 还会使用美国境外的 IP 地址进行抓取。
正如我们一直建议的,当 Googlebot 看似来自特定国家/地区时,请像对待来自该国家/地区的任何其他用户一样对待它。这意味着,如果您阻止位于美国的用户访问您的内容,但允许来自澳大利亚的用户访问,那么您的服务器就会阻止看似来自美国的 Googlebot,但允许看似来自澳大利亚的 Googlebot 访问。
其他注意事项
- Googlebot 对所有抓取配置使用相同的用户代理字符串。详细了解 Google 抓取工具使用的用户代理字符串。
- 您可以使用 DNS 反向查找来验证 Googlebot 基于地理位置的抓取。
- 请确保您的网站对所有语言区域应用一致的 robots 协议。这意味着,漫游器
meta
标记和 robots.txt 文件必须为每个语言区域指定相同的规则。