Neue Open-Source-robots.txt-Projekte

Montag, 21. September 2020

Seit letztem Jahr stellen wir der Open-Source-Community unseren robots.txt-Parser und -Matcher zur Verfügung, der in unseren Produktionssystemen zum Einsatz kommt. Seither haben viele Nutzer neue Tools entwickelt, zur Open-Source-Bibliothek beigetragen und unsere Produktionssysteme dadurch optimiert. Vielen Dank! Außerdem wurden Sprachversionen wie golang und rust erstellt, die Entwicklern das Erstellen neuer Tools erleichtern.

Da die Praktikumssaison bei Google endet, möchten wir euch auf zwei neue Releases zum Thema robots.txt hinweisen, die zwei Praktikanten bei ihrer Arbeit im Search Open Sourcing-Team ermöglicht haben: Andreea Dutulescu und Ian Dolzhanskii.

robots.txt-Spezifikationstest

Zum einen veröffentlichen wir ein Test-Framework für Entwickler von robots.txt-Parsern, das von Andreea erstellt wurde. Das Projekt bietet ein Testtool, mit dem ihr überprüfen könnt, ob und in welchem Umfang ein robots.txt-Parser dem Protokoll zum Ausschluss von Robots entspricht. Derzeit gibt es keine offizielle und gründliche Möglichkeit, die Richtigkeit eines Parsers zu beurteilen. Daher hat Andreea ein Tool entwickelt, mit dem robots.txt-Parser erstellt werden können, die dem Protokoll folgen.

robots.txt-Parser und -Matcher für Java

Zum anderen veröffentlichen wir einen offiziellen Java-Port des robots.txt-Parsers für C++, der von Ian erstellt wurde. Java ist die drittbeliebteste Programmiersprache auf GitHub und wird auch bei Google häufig verwendet. Sie ist daher auch der am häufigsten angefragte Sprachport. Der Parser ist eine 1:1-Umsetzung des Parsers für C++ in Bezug auf Funktionen und Verhalten und wurde in Tests mit einem großen Korpus von robots.txt-Regeln abgeglichen. Die Teams versuchen bereits, den robots.txt-Parser für Java in Google-Produktionssystemen zu verwenden, und hoffen, dass auch ihr ihn nützlich findet.

Wie immer freuen wir uns über eure Beiträge zu diesen Projekten. Wenn ihr etwas mit dem robots.txt-Parser für C++ oder mit diesen neuen Releases erstellt habt, gebt uns bitte Bescheid, damit wir euch unterstützen können. Wenn ihr einen Fehler gefunden habt, könnt ihr uns helfen, ihn zu beheben. Meldet das Problem auf GitHub oder sendet direkt eine Pull-Anfrage. Wenn ihr Fragen oder Kommentare zu diesen Projekten habt, könnt ihr uns einfach auf Twitter kontaktieren.

Es war uns wirklich ein Vergnügen, Andreea und Ian bei uns zu haben. Wir finden es schade, dass das Praktikum nun vorbei ist. Ihr Beitrag ist eine Bereicherung für das Internet und wir hoffen, dass wir die beiden künftig wieder bei Google begrüßen können.