2025 年 2 月 24 日,星期一
我们时不时会收到有关 robots.txt、漫游器元标记以及它们提供的控制功能的问题。在“抓取 12 月”系列之后,我们认为现在是时候来温习一下了。因此,如果您对这些控件感兴趣,请关注这一系列新博文!
我们从头开始,先从 robots.txt 说起。
那么,什么是 robots.txt?
“robots.txt”是任何网站都可以提供的文件。它采用最简单的形式,是一个存储在服务器上的文本文件。几乎所有网站都有 robots.txt 文件。
如需查看某个 robots.txt 文件,请在域名末尾添加 /robots.txt
,然后浏览该地址。例如,本网站的 robots.txt 文件位于 developers.google.com/robots.txt
。
大多数网站都使用内容管理系统 (CMS) 自动创建这些文件,但即使您是“手动”制作网站,也可以轻松创建这些文件。我们将在后续的帖子中介绍一些变体。
这些文件有什么用途?
robots.txt 文件会告知网站抓取工具网站的哪些部分可供自动访问(我们称之为“抓取”),哪些部分不可供访问。它允许网站处理整个网站内容、网站的部分内容甚至网站中的特定文件。除了机器可读之外,这些文件也是人类可读的。这意味着,对于特定抓取工具能否以自动方式访问网页,始终有一个明确的“是”或“否”答案。
任何构建抓取程序的人都应遵循这些指令,这也是标准做法,并且开发者可以轻松支持这些指令 - 有超过 1000 个开源库可供开发者使用。该文件会向抓取工具提供指令,以便优化网站抓取。现代网站可能很复杂,自动浏览这些网站可能很有挑战性,而 robots.txt 规则有助于抓取工具专注于适当的内容。这也有助于抓取程序避免动态创建的网页,这些网页可能会给服务器造成压力,并导致抓取效率不必要地降低。由于 robots.txt 文件在技术上有帮助,并且有助于与网站所有者建立良好的关系,因此大多数商业抓取工具运营商都会遵循这些文件。
由公众构建和扩展
robots.txt 文件几乎与互联网同时出现,是使互联网正常运行所必需的工具之一。HTML 是网页的基础,于 1991 年问世;首批浏览器于 1992 年问世;robots.txt 于 1994 年问世。这意味着,它们甚至比成立于 1998 年的 Google 出现得还要早。此后,格式基本没有变化,早期文件现在仍然有效。经过三年的全球社区参与,它于 2022 年成为 IETF 提议的标准。
如果您有网站,那么很可能也有 robots.txt 文件。围绕 robots.txt 有一个充满活力的社区,有成千上万的软件工具可帮助构建、测试、管理或了解各种形式和大小的 robots.txt 文件。不过,robots.txt 的妙处在于,您无需使用复杂的工具,就可以在浏览器中读取该文件,并针对您管理的网站在简单的文本编辑器中进行调整。
展望未来…
robots.txt 格式灵活。还有增长空间,公共网络社区可以对其进行扩展,抓取工具可以在适当的时候宣布扩展功能,而不会破坏现有的用法。这种情况发生在 2007 年,当时搜索引擎宣布推出“站点地图”指令。随着抓取工具运营商和搜索引擎支持新的“user-agent”(例如用于 AI 目的的“user-agent”),这种情况也会经常发生。
robots.txt 将继续存在。新的文件格式需要几年时间才能在更大的互联网社区中最终确立,而要让这些格式对生态系统有用,还需要更长时间来开发合适的工具。robots.txt 简单易用、细致入微、富有表现力,易于理解和接受,并且能够正常运行,就像几十年来一直在运行一样。
想了解更多详情?敬请关注搜索中心博客上发布的下一篇“Robots Refresher”系列文章!