Mise en forme officielle de la spécification du protocole d'exclusion des robots

Lundi 01 juillet 2019

Depuis 25 ans, le protocole d'exclusion des robots (REP) est l'un des composants les plus basiques et essentiels du Web. Il permet aux propriétaires de sites Web d'exclure des clients automatisés, par exemple des robots d'exploration, d'un accès partiel ou total à leurs sites.

En 1994, Martijn Koster (un webmaster) a créé la norme après que les robots d'exploration ont submergé son site. En raison de l'avis d'autres webmasters, le protocole REP est né et a été adopté par les moteurs de recherche pour aider les propriétaires de sites Web à gérer plus facilement les ressources de leurs serveurs.

Cependant, le protocole REP n'a jamais été converti en norme Internet officielle, ce qui signifie que les développeurs ont interprété le protocole de manière légèrement différente au fil des années. Depuis sa création, le protocole n'a pas été mis à jour pour couvrir les cas courants. C'est un problème difficile pour les propriétaires de sites Web, car la norme ambiguë compliquait la rédaction des règles.

Notre but était d'aider les propriétaires de sites Web et les développeurs à créer des expériences exceptionnelles sur Internet, sans avoir à se préoccuper de contrôler les robots d'exploration. En collaboration avec l'auteur original du protocole, les webmasters et d'autres moteurs de recherche, nous avons documenté l'utilisation du protocole REP sur le Web moderne et l'avons soumis à l'organisation IETF.

Le brouillon du protocole REP reflète plus de 20 ans d'expérience en conditions réelles liées à l'utilisation des règles robots.txt, utilisé par Googlebot et d'autres robots d'exploration majeurs, et près d'un demi-milliard de sites Web qui font appel à la plateforme. Ces contrôles précis permettent à l'éditeur de décider ce qu'il souhaite explorer sur son site et potentiellement montrer aux utilisateurs intéressés. Cette règle ne modifie pas les règles créées en 1994, mais définit essentiellement tous les scénarios non définis pour l'analyse et la correspondance des fichiers robots.txt et les étend pour le Web moderne. À noter :

  1. Tous les protocoles de transfert basés sur des URI peuvent utiliser le fichier robots.txt. Par exemple, il ne s'applique plus au protocole HTTP et peut être utilisé pour le protocole FTP ou CoAP.
  2. Les développeurs doivent analyser au moins les 500 premiers kibioctets d'un fichier robots.txt. La définition d'une taille de fichier maximale garantit que les connexions ne sont pas ouvertes trop longtemps, ce qui évite une pression inutile sur les serveurs.
  3. Un nouveau temps de mise en cache maximal de 24 heures ou une nouvelle valeur de directive du cache (si disponible) permet aux propriétaires de sites Web de mettre à jour leur fichier robots.txt à tout moment. De plus, les robots d'exploration ne surchargent pas les sites Web avec des requêtes robots.txt. Par exemple, pour les protocoles HTTP, des en-têtes Cache-Control peuvent être utilisés pour déterminer la durée de mise en cache.
  4. La spécification indique désormais que lorsqu'un fichier robots.txt précédemment accessible devient inaccessible en raison de défaillances du serveur, les pages non autorisées connues ne sont pas explorées pendant une période raisonnablement longue.

Nous avons également mis à jour le formulaire Backus-Naur augmenté dans la version Internet pour mieux définir la syntaxe des fichiers robots.txt, ce qui est essentiel aux développeurs pour l'analyse des lignes.

RFC signifie Request for Comments, ce qui signifie que nous avons importé le brouillon dans l'organisation IETF pour recueillir les commentaires de développeurs qui s'intéressent aux éléments constitutifs d'Internet. Tandis que nous nous efforçons de donner aux créateurs Web les contrôles dont ils ont besoin pour nous indiquer les informations qu'ils souhaitent mettre à la disposition de Googlebot, et par extension, apparaître dans la recherche, nous devons nous assurer de ne pas nous tromper.

Si vous souhaitez nous faire part de vos commentaires, nous poser des questions ou nous dire bonjour, vous pouvez nous trouver sur Twitter et dans notre communauté des webmasters, hors connexion et en ligne.