Lundi 24 février 2025
Nous recevons de temps à autre des questions sur les fichiers robots.txt, les balises Meta pour les robots et les fonctionnalités de contrôle qu'ils offrent. Après notre série de décembre sur l'exploration, nous avons pensé qu'il était temps de faire un petit rappel. Si vous souhaitez en savoir plus sur ces commandes, suivez cette nouvelle série d'articles de blog.
Commençons par le commencement, avec le fichier robots.txt.
Qu'est-ce qu'un fichier robots.txt ?
Un fichier robots.txt est un fichier que n'importe quel site Web peut fournir. Dans sa forme la plus simple, il s'agit d'un fichier texte stocké sur le serveur. Presque tous les sites Web disposent d'un fichier robots.txt.
Pour en consulter un, prenez le nom de domaine et ajoutez /robots.txt
à la fin, puis accédez à cette adresse. Par exemple, le fichier robots.txt de ce site Web se trouve à l'adresse developers.google.com/robots.txt
.
La plupart des sites Web utilisent des systèmes de gestion de contenu (CMS) qui créent ces fichiers automatiquement. Toutefois, même si vous créez votre site Web "à la main", il est facile de créer un sitemap. Nous examinerons quelques-unes des méthodes possibles dans de prochains articles.
À quoi servent ces fichiers ?
Les fichiers robots.txt indiquent aux robots d'exploration des sites Web à quelles parties du site Web ils peuvent accéder automatiquement (c'est ce que l'on appelle l'exploration) ou à quelles parties ils ne peuvent pas accéder. Ils permettent aux sites d'adresser l'ensemble de leur site, des parties de leur site ou même des fichiers spécifiques de leur site. En plus d'être lisibles par un ordinateur, les fichiers sont également lisibles par l'humain. Cela signifie qu'il existe toujours une réponse simple (oui ou non) à la question de savoir si une page est accessible automatiquement par un robot d'exploration particulier.
Les développeurs de robots d'exploration respectent généralement ces directives et les prennent en charge facilement. En effet, plus de 1 000 bibliothèques Open Source sont disponibles pour les développeurs. Le fichier fournit des instructions aux robots d'exploration pour optimiser l'exploration d'un site Web. Les sites Web modernes peuvent être complexes, et il peut être difficile de les explorer automatiquement. Les règles robots.txt aident les robots d'exploration à se concentrer sur le contenu approprié. Elles permettent également aux robots d'éviter les pages créées de manière dynamique, qui pourraient surcharger le serveur et rendre l'exploration inefficace. Les fichiers robots.txt sont à la fois utiles d'un point de vue technique et bénéfiques pour les relations avec les propriétaires de sites Web. C'est pourquoi la plupart des opérateurs de robots d'exploration commerciaux les suivent.
Créé et développé par le public
Les fichiers robots.txt existent presque depuis l'apparition d'Internet et constituent l'un des outils essentiels qui permettent à Internet de fonctionner. Le langage HTML, qui constitue la base des pages Web, a été inventé en 1991, les premiers navigateurs sont apparus en 1992, et le fichier robots.txt a débarqué en 1994. Cela signifie qu'ils sont antérieurs à Google, qui a été fondé en 1998. Le format n'a pas beaucoup changé depuis, et un fichier des débuts serait toujours valide aujourd'hui. Après trois ans d'engagement de la communauté mondiale, il a été proposé comme standard par l'IETF en 2022.
Si vous avez un site Web, il y a de fortes chances que vous ayez également un fichier robots.txt. Il existe une communauté dynamique et active autour des fichiers robots.txt. Des milliers d'outils logiciels permettent de créer, de tester, de gérer ou de comprendre des fichiers robots.txt de toutes tailles et de tous formats. L'avantage du fichier robots.txt est que vous n'avez pas besoin d'outils sophistiqués. Il est possible de le lire dans un navigateur et, pour un site Web que vous gérez, de le modifier dans un simple éditeur de texte.
Que réserve l'avenir ?
Le format robots.txt est flexible. Il existe des possibilité d'évolution, la communauté Web publique peut le développer, et les robots d'exploration peuvent annoncer des extensions, le cas échéant, sans disrupter l'utilisation existante. C'est ce qui s'est passé en 2007, lorsque les moteurs de recherche ont annoncé la directive "sitemap". Cela se produit également régulièrement, lorsque de nouveaux "user-agents" sont pris en charge par les opérateurs de robots d'exploration et les moteurs de recherche, comme ceux utilisés pour l'IA.
Le fichier robots.txt ne va pas disparaître de si tôt. Il faut plusieurs années pour que les nouveaux formats de fichiers soient finalisés par la communauté Internet, et encore plus pour que des outils appropriés les rendent utiles pour l'écosystème. Le fichier robots.txt est facile d'utilisation, précis et compréhensible, bien compris et accepté, et il fonctionne bien depuis des décennies.
Vous voulez en savoir plus ? Restez à l'écoute pour les prochains articles de notre série de rappels sur les robots sur le blog Search Central.