漫游器知识回顾:面向未来的 robots 协议

2025 年 3 月 28 日,星期五

在之前关于 robots 协议 (REP) 的帖子中,我们探讨了您可以使用其各个组成部分(即 robots.txt 和 URI 级控制)执行的操作。 在本文中,我们将探讨 REP 如何在自动客户端与人类网络之间不断变化的关系中发挥支持作用。

REP(特别是 robots.txt)已于 2022 年成为 RFC9309 标准。 不过,在标准化之前,我们就已经完成了繁重的工作:经过 1994 年到 2022 年之间时间的考验,它已经足够流行,被数十亿主机和几乎所有主要抓取程序运营商(不包括恶意软件扫描程序等对抗性抓取程序)采用。它是一种简单而优雅的解决方案,可使用简单且多样的语法来表达偏好设置。 在 25 年的历史中,它几乎没有从原始形式演变,如果我们只考虑抓取工具普遍支持的规则,它只会有一个 allow 规则。

这并不意味着没有其他规则;任何抓取工具运营商都可以制定自己的规则。例如,“clean-param”和“crawl-delay”等规则不属于 RFC9309,但某些搜索引擎(但不是 Google 搜索)支持这些规则。 “sitemap”规则(同样不属于 RFC9309)也受所有主流搜索引擎支持。如果获得足够的支持,它可能会成为 REP 中的正式规则。

因为 REP 实际上可以获得“更新”。该协议广受支持,应该随着互联网的发展而发展。对其进行更改并非不可能,但并不容易;也确实不应该容易,因为 REP 得到了广泛支持。如同对标准作出任何更改时一样,必须形成这样的共识:即此类更改应能让协议的大多数用户从中受益,无论这些用户是发布商,还是抓取工具运营商。

由于 REP 简单易用且广为采用,因此是执行新的抓取偏好设置的绝佳选择:例如,数十亿发布商已经熟悉 robots.txt 及其语法,因此做出更改更应该是面向发布商。另一方面,抓取工具运营商已经拥有经过充分测试的强大解析器和匹配器(Google 也开源了自己的 robots.txt 解析器),这意味着新规则很可能不会出现解析问题。

REP URI 级别的扩展、X-robots-tag HTTP 标头及其对应的元标记也是如此。如果需要使用新规则来执行停用偏好设置,则可以轻松扩展。但如何做到这一点呢?

作为读者,您能做的最重要的事情就是公开谈论您的想法,并为该想法争取支持者。由于 REP 是一项公开标准,因此任何实体都无法单方面对其进行更改;当然,他们可以对新标准提供支持,但这不会成为标准。但如果谈论这一变化,并向生态系统(包括抓取工具运营商和发布生态系统)展示这种变化会让所有人受益,这将有助于达成共识,并为更新标准铺平道路。

同样,如果协议缺少某些内容,请公开讨论。sitemap 成为 robots.txt 中广受支持的规则,是因为它对内容创作者和搜索引擎都很有用,这为采用该扩展铺平了道路。如果您对某条规则有新的想法,请询问 robots.txt 的使用者和创建者对此有何看法,并与他们合作解决他们提出的潜在(和可能)问题,并撰写一份提案。

如果您的目的是为了造福大众,那么就值得。


Check out the rest of the Robots Refresher series: