2020 年 9 月 21 日,星期一
我們在去年向開放原始碼社群公開了自家生產系統中使用的 robots.txt 剖析器和比對工具。在那之後,我們便看到大家開始利用這些資源打造新工具、向開放原始碼程式庫貢獻內容 (這有效改善了我們的生產系統,我們對此深表謝意) 以及 golang、rust 等方便開發人員建構新工具的新版語言。
隨著 Google 的實習季即將結束,我們想特別介紹由 Google 搜尋開放原始碼團隊的兩名實習生 Andreea Dutulescu 和 Ian Dolzhanskii 所開發的兩項與 robots.txt 相關的新功能。
robots.txt 規格測試
首先,我們將推出 Andreea 為 robots.txt 剖析器開發人員建立的測試架構。該專案提供的測試工具可以驗證 robots.txt 剖析器是否遵循漫遊器排除通訊協定,或是遵循漫遊器排除通訊協定的程度。由於目前還沒有一種能夠全面評估解析器正確性的正式方法,因此開發人員可以利用 Andreea 建構的這項工具來建立遵循通訊協定的 robots.txt 解析器。
Java robots.txt 剖析器和比對工具
其次,我們將推出 Ian 針對 C++ robots.txt 剖析器建立的正式 Java 語言埠。Java 是 GitHub 上第 3 大熱門的程式語言,而且同樣受到 Google 廣泛使用,因此 Java 語言埠無疑是最多人想使用的語言埠。這個解析器是 CSS 剖析器在函式和行為方面的直接翻譯,已通過大量 robots.txt 規則的奇偶測試。目前相關團隊已計劃在 Google 生產系統中使用 Java robots.txt 剖析器,我們希望您也能從中受益。
一如既往,我們歡迎您為這些專案做出貢獻。如果您利用 C++ robots.txt 剖析器或這些新功能製作了新東西,請告訴我們,我們也許能幫您推廣。發現錯誤時,您可以在 GitHub 上提出問題,也可以直接發出提取要求,協助我們進行修正。如果您對這些專案有任何疑問或意見,歡迎透過 Twitter 反映給我們!
非常榮幸 Andreea 和 Ian 能夠加入我們,也很遺憾他們的實習即將結束。他們的貢獻有助於打造更好的網際網路環境,希望將來能歡迎他們回到 Google 發光發熱。