L'analyseur robots.txt de Google est désormais Open Source

Lundi 01 juillet 2019

Pendant 25 ans, le protocole d'exclusion des robots (REP) n'était qu'une norme. Cela pouvait avoir des conséquences frustrantes. D'un côté, cela représentait pour les webmasters une incertitude dans les cas pratiques, par exemple lorsque leur éditeur de texte comportait des caractères BOM dans leurs fichiers robots.txt. D'autre part, cela représentait également une incertitude pour les développeurs d'outils et de robots d'exploration. Par exemple, comment devaient-ils traiter les fichiers robots.txt avec un volume de centaines de mégaoctets ?

Googlebot déballe un site Web

Aujourd'hui, nous avons annoncé que nous menons le projet de faire du REP une norme Internet. Cette étape est importante, mais elle demande davantage de travail aux développeurs qui analysent les fichiers robots.txt.

Nous sommes là pour vous aider : nous avons partagé en Open Source la bibliothèque C++ que nos systèmes de production utilisent pour analyser et mettre en correspondance les règles des fichiers robots.txt. Cette bibliothèque existe depuis 20 ans et contient des morceaux de code écrits dans les années 90. Depuis, la bibliothèque a évolué. nous avons beaucoup appris sur la façon dont les webmasters rédigent les fichiers robots.txt et les cas pratiques que nous devions couvrir. Au fil du temps, nous avons également découvert ce que nous avons appris dans l'ébauche Internet s'il était judicieux.

Nous avons également inclus un outil de test dans le package Open Source pour vous aider à tester quelques règles. Une fois compilé, son utilisation est très simple :

robots_main <robots.txt content> <user_agent> <url>

Si vous souhaitez découvrir la bibliothèque, accédez à notre dépôt GitHub pour l'analyseur robots.txt. Nous serions ravis de découvrir ce que vous pouvez créer avec l'analyseur. Si vous avez créé un élément à l'aide de la bibliothèque, postez un commentaire sur notre Twitter. Si vous avez des commentaires ou des questions sur la bibliothèque, contactez-nous sur GitHub.