Google 的 robots.txt 剖析器現在屬於開放原始碼

2019 年 7 月 1 日,星期一

25 年來,《漫遊器排除通訊協定 (REP)》只是個實際存在但非正式的標準。這種情況有時會造成困擾。對網站管理員來說,這意味著某些特殊情況的不確定性,例如他們的文字編輯器將 BOM 字元加進 robots.txt 檔案中。另一方面,對於檢索器和工具開發人員來說,這種情況也帶來了不確定性。例如,他們該如何處理大小為數百 MB 的 robots.txt 檔案?

Googlebot 網站開箱

今天,我們宣布要率先投入,將 REP 確立為網際網路標準。雖然這是一項重要步驟,但對於要剖析 robots.txt 檔案的開發人員來說,是額外的作業負擔。

我們很樂意提供協助:我們將生產系統用於 robots.txt 檔案中的剖析和比對規則的 C++ 程式庫設為開放原始碼。這個程式庫約有 20 年歷史,其中含有許多 90 年代撰寫的程式碼。後來,程式庫不斷演進。我們深入瞭解了網站管理員如何撰寫 robots.txt 檔案和必須納入考慮的特殊案例,並且在合理的情況下,在網際網路草稿中加入我們在這幾年間瞭解的情況。

此外,我們也在開放原始碼套件中納入測試工具,協助您測試幾項規則。建構完成後,使用方法非常簡單:

robots_main <robots.txt content> <user_agent> <url>

如要查看程式庫,請前往我們的 GitHub 存放區尋找 robots.txt 剖析器。我們期待您能使用這項剖析器打造精彩的網站!如果您使用程式庫打造出一些內容,歡迎在 Twitter 上留言給我們,如果您對程式庫有任何意見或疑問,請造訪 GitHub