漫遊器排除通訊協定規格正式確立

2019 年 7 月 1 日，星期一

25 年來，《漫遊器排除通訊協定》(REP) 已經成為網路最基本且最重要的元件之一。可讓網站擁有者排除自動化用戶端 (例如網路檢索器)，部分或完全禁止存取他們的網站。

1994 年，Martijn Koster (本身就是網站管理員) 自己的網站遭檢索器流量淹沒之後，就建立了初步標準。納入其他網站管理員的意見後，REP 就此誕生，搜尋引擎也予以採用，協助網站擁有者輕鬆管理伺服器資源。

然而，REP 從未成為正式的網際網路標準，這表示開發人員多年來解讀通訊協定的方式稍有不同。自從 REP 推出以來，從未針對現今的特殊案件進行更新。對網站擁有者來說，這會是一大難題，因為模糊不清卻又實際存在的標準，讓人難以正確撰寫規則。

我們希望協助網站擁有者和開發人員在網際網路上打造優質的體驗，而不用擔心如何控制檢索器。我們和通訊協定的原作者、網站管理員和其他搜尋引擎共同合作，記錄了 REP 在現代網路中的使用方式，並提交給網際網路工程任務組 (IETF)。

REP 草稿提案反映了超過 20 年來仰賴 robots.txt 規則的真實情況，Googlebot 和其他主要檢索器，以及大約五億個採用 REP 的網站，都採用 robots.txt 規則。有了這些精細的控制項，發布者就能自行決定自家網站的哪些內容要開放檢索，可以向有興趣的使用者顯示。這不會改變 1994 年建立的規則，而是從基礎上定義 robots.txt 剖析和比對的所有未定義情境，並擴展到現代網路。注意事項：

任何以 URI 為基礎的傳輸通訊協定都可以使用 robots.txt。例如，現在已經不再限於 HTTP，也可以用於 FTP 或 CoAP。
開發人員至少必須剖析 robots.txt 的前 500 KiB。定義檔案大小上限可確保連線不會開啟過長時間，進而減少伺服器中不必要的負荷。
新的快取時間上限是 24 小時或是快取指令值 (如果有的話)，讓網站擁有者能夠隨時靈活更新 robots.txt，而檢索器也不會透過 robots.txt 要求讓網站超載。例如，如果是 HTTP，可以使用 Cache-Control 標頭來決定快取時間。
按目前的規定，如果因為伺服器故障而無法存取原本可以存取的 robots.txt 檔案，系統在一段合理期間內，會繼續保持不去檢索已知禁止的網頁。

此外，我們也更新了網際網路草稿中的擴增 Backus-Naur 表單，更妥善地定義 robots.txt 的語法，讓開發人員能夠剖析。

RFC 代表「要求評論」(Request for Comments)，我們也確實希望收到意見：我們已將這份草稿上傳到 IETF，希望能夠獲得關心網際網路基本構成要素的開發人員的意見回饋。我們致力於讓網路創作者能夠掌控要開放多少資訊讓 Googlebot 檢索，進而能夠顯示在 Google 搜尋中，我們必須把這件事做好。

如要留下評論、提出問題甚至只是想打個招呼，都歡迎前往 Twitter 和網站管理員社群與我們聯絡，離線和線上皆可使用。

發文者：Henner Zeller、Lizzi Sassman 和 Gary Illyes

漫遊器排除通訊協定規格正式確立 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

漫遊器排除通訊協定規格正式確立