2025 年 3 月 14 日,星期五
借助 robots.txt 文件,网站所有者可以通过简单的方式控制抓取工具可以访问网站的哪些部分。为了帮助网站所有者进一步说明搜索引擎和网页抓取工具可以如何使用其网页,参与制定网络标准的社区在 1996 年提出了漫游器 meta
标记,而这仅仅是在为 HTML 提出 meta
标记的几个月后(顺便提一句,这也是 Google 成立之前)。后来,添加了 X-Robots-Tag
HTTP 响应标头。
这些指令会随网址一起发送,因此只有在未通过 robots.txt 文件禁止抓取工具抓取网址的情况下,抓取工具才会考虑这些指令。它们共同构成了 robots 协议 (REP)。
了解漫游器 meta
标记
元标记(或元素)是一种包含机器可读元数据的方式。
漫游器 meta
标记是一种 meta
标记,适用于抓取工具,包括搜索引擎抓取工具。它们表示:内容是否被屏蔽,无法编入索引?是否应禁止抓取网页上的链接?您可以使用漫游器 meta
标记直接在网页上提供此类信息。
适用于任何网址的 robots 协议
为了对非 HTML 内容提供相同级别的控制,我们创建了“X-Robots-Tag
”HTTP 响应标头。这些 HTTP 标头也被视为 REP 的一部分。
该标头支持与漫游器 meta
标记相同的值,并且可以添加到在线提供的任何内容中。除了 HTML 之外,Google 还支持 PDF、文档文件甚至图片等内容。
这些文件格式中的大多数都没有与 meta
标记等效的机制,因此 HTTP 响应标头会很有帮助。
漫游器 meta
标记和标头使用入门
语法简单且可扩展。这些规则通常由 Web 开发者实现,或通过内容管理系统 (CMS) 实现,网站所有者也许可以通过复选框或下拉菜单选择偏好设置。 这些控制措施可以针对特定的抓取工具(例如 Googlebot),也可以通过省略特定名称来针对支持这些值的所有抓取工具。
例如,以下规则会告知所有抓取工具不要将关联的网页用于索引编制:
- 在网页上以 HTML
meta
标记的形式:<meta name="robots" content="noindex">
查看现有的
meta
标记或响应标头会复杂一些,需要直接检查网页内容或标头。 您可以查看任何网页上的 HTMLmeta
标记,方法是查看浏览器中的网页源代码,或使用 Chrome 的开发者工具检查网页。
- 以 HTTP 响应标头的形式:
X-Robots-Tag: noindex
您可以在 Chrome 的开发者工具的网络面板中检查各个网址的 HTTP 响应标头。
其他可采取的措施示例:
不显示此网页或文档的摘要。 |
在 HTTP 标头中:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
请勿在 这些控制措施会明确指定一个抓取程序。 |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
请注意,系统会应用最严格的有效指令,因此对于 |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
选择 REP 机制
如何选择要使用的机制?从根本上讲,robots.txt 和网页级控制措施类似,但并非完全可以互换。有时,某个特定操作只能通过某种机制来实现,例如,如果希望停止抓取(例如,对于无限搜索结果页,可通过 robots.txt 实现),如果需要控制 FTP 服务器(可通过 robots.txt 实现),或者如果希望不显示网页的摘要(仅可通过网页级元素实现)。 如果您不需要区分屏蔽抓取和屏蔽索引编制,一种方法是使用 robots.txt 进行更广泛的控制(以屏蔽网站的大部分内容),并使用网页级控制措施来屏蔽各个网页。
robots 协议 - 一项强大且不断发展的标准
所有这些控制措施本质上都是可扩展的。多年来,网站所有者、抓取工具运营商和搜索引擎一直在共同努力改进这些控制措施。
从历史上看,它最初只有少数几个值,包括 noindex
和 nofollow
,后来又采用了 nosnippet
、noarchive
和 max-snippet:
等更多值。有时,某些值会被弃用,例如 noodp
,它使用了 DMOZ / Open Directory Project 中目录关闭前的代码段。Google 为网站所有者支持了大量值,其他大型抓取工具运营商也支持类似数量的值。
在 REP 范畴下,网站所有者可以控制抓取的内容以及搜索引擎如何使用抓取的数据。他们可以针对网站的较大部分进行广泛的控制,也可以针对单个网页(甚至是网页中的图片)进行非常精细的控制。 这些控制措施广为人知,可在所有常见的内容管理系统中使用,并得到商业运营商的广泛支持,目前在互联网上有数十亿主机在使用这些控制措施。