Vendredi 7 mars 2025
Le fichier robots.txt est un outil utilisé depuis plus de 30 ans par les propriétaires de sites Web. Il est largement pris en charge par les opérateurs de robots d'exploration (tels que les outils pour les propriétaires de sites, les services et les moteurs de recherche). Dans cet article de notre série de rappels sur les robots, nous allons nous intéresser de plus près au fichier robots.txt, qui permet de spécifier aux robots ce que vous voulez qu'ils fassent (ou ne fassent pas) sur votre site Web.
Premiers pas avec le fichier robots.txt
Le fonctionnement de ces fichiers est simple : vous créez un fichier texte appelé "robots.txt", puis vous l'importez sur votre site Web. Si vous utilisez un système de gestion de contenu (CMS), la procédure est sûrement encore plus simple. Vous pouvez laisser votre fichier robots.txt vide (ou ne pas en avoir du tout) si l'ensemble de votre site peut être exploré, ou ajouter des règles pour gérer l'exploration. Par exemple, pour indiquer à tous les bots (également appelés robots d'exploration ou simplement robots) de ne pas accéder à votre page "Ajouter au panier", vous pouvez écrire ce qui suit dans votre fichier robots.txt:
user-agent: * disallow: /cart
Actions spécifiques possibles avec le fichier robots.txt
Le fichier robots.txt est un outil polyvalent qui vous permet d'indiquer ce que vous voulez que les différents robots fassent ou non sur votre site Web. Le fichier peut faire simplement quelques lignes ou être plus complexe, avec des règles plus sophistiquées ciblant des formats d'URL très spécifiques. Vous pouvez utiliser un fichier robots.txt pour résoudre des problèmes techniques (pages paginées inutiles, par exemple) ou pour des raisons éditoriales ou personnelles (par exemple, si vous ne souhaitez pas que certaines pages soient explorées). Par exemple, vous pouvez :
Informer plusieurs bots (mais pas tous) de la même règle
Ce groupe indique à |
user-agent: examplebot user-agent: otherbot disallow: /search |
Demander à un bot d'éviter les chemins d'accès contenant un élément de texte spécifique
Par exemple, vous pouvez demander à |
user-agent: documentsbot disallow: *.pdf |
Autoriser un bot à explorer votre blog, mais pas les brouillons |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Empêcher un robot d'exploration d'accéder à une partie de votre site Web, tout en autorisant d'autres robots d'exploration à accéder à votre site
Ce fichier robots.txt empêche le robot |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Laisser un commentaire pour votre futur vous
Vous pouvez commencer une ligne par |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Pour en savoir plus, consultez notre liste de règles utiles pour les fichiers robots.txt.
Modifier votre fichier robots.txt (en pratique)
Le protocole d'exclusion des robots fonctionne en rassemblant des règles (allow ou disallow) et en spécifiant les robots auxquels ces règles s'appliquent. Vous n'avez pas besoin d'apprendre à programmer ni de vous servir d'outils. Il vous suffit de placer ces règles dans un fichier texte et de l'importer sur votre site Web.
Pour la plupart des sites Web, c'est encore plus simple. Si vous utilisez un CMS, celui-ci intègre généralement une fonctionnalité pour vous aider à modifier votre fichier robots.txt. Par exemple, certains CMS vous permettent de personnaliser votre fichier robots.txt à l'aide de cases à cocher ou d'un formulaire simple. De nombreux CMS sont également dotés de plug-ins qui vous aident à configurer et à écrire des règles pour votre fichier robots.txt. Pour vérifier ce qui est possible de faire dans votre CMS, vous pouvez effectuer une recherche en saisissant le nom de votre CMS suivi de "modifier le fichier robots.txt".
Une fois que vous avez tout configuré, vous pouvez également effectuer un test pour vous assurer que votre fichier est configuré comme vous le souhaitez. De nombreux outils de test créés par la communauté Web peuvent vous aider, comme l'outil de test du fichier robots.txt de TametheBot et cet analyseur de fichier robots.txt qui utilisent la bibliothèque d'analyseurs de fichiers robots.txt Open Source.
Si vous avez des questions sur le fichier robots.txt, vous pouvez nous contacter sur LinkedIn ou discuter avec des experts sur les forums de la communauté.