Rappel sur les robots: le fichier robots.txt, un moyen flexible de contrôler la façon dont les robots explorent votre site Web

Vendredi 7 mars 2025

Le fichier robots.txt est un outil utilisé depuis plus de 30 ans par les propriétaires de sites Web. Il est largement pris en charge par les opérateurs de robots d'exploration (tels que les outils pour les propriétaires de sites, les services et les moteurs de recherche). Dans cet article de notre série de rappels sur les robots, nous allons nous intéresser de plus près au fichier robots.txt, qui permet de spécifier aux robots ce que vous voulez qu'ils fassent (ou ne fassent pas) sur votre site Web.

Premiers pas avec le fichier robots.txt

Le fonctionnement de ces fichiers est simple : vous créez un fichier texte appelé "robots.txt", puis vous l'importez sur votre site Web. Si vous utilisez un système de gestion de contenu (CMS), la procédure est sûrement encore plus simple. Vous pouvez laisser votre fichier robots.txt vide (ou ne pas en avoir du tout) si l'ensemble de votre site peut être exploré, ou ajouter des règles pour gérer l'exploration. Par exemple, pour indiquer à tous les bots (également appelés robots d'exploration ou simplement robots) de ne pas accéder à votre page "Ajouter au panier", vous pouvez écrire ce qui suit dans votre fichier robots.txt:

user-agent: *
disallow: /cart

Actions spécifiques possibles avec le fichier robots.txt

Le fichier robots.txt est un outil polyvalent qui vous permet d'indiquer ce que vous voulez que les différents robots fassent ou non sur votre site Web. Le fichier peut faire simplement quelques lignes ou être plus complexe, avec des règles plus sophistiquées ciblant des formats d'URL très spécifiques. Vous pouvez utiliser un fichier robots.txt pour résoudre des problèmes techniques (pages paginées inutiles, par exemple) ou pour des raisons éditoriales ou personnelles (par exemple, si vous ne souhaitez pas que certaines pages soient explorées). Par exemple, vous pouvez :

Informer plusieurs bots (mais pas tous) de la même règle

Ce groupe indique à examplebot et otherbot de rester à l'écart du chemin /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Demander à un bot d'éviter les chemins d'accès contenant un élément de texte spécifique

Par exemple, vous pouvez demander à documentsbot de ne pas explorer les fichiers dont le nom contient ".pdf".

user-agent: documentsbot
disallow: *.pdf

Autoriser un bot à explorer votre blog, mais pas les brouillons

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Empêcher un robot d'exploration d'accéder à une partie de votre site Web, tout en autorisant d'autres robots d'exploration à accéder à votre site

Ce fichier robots.txt empêche le robot aicorp-trainer-bot mentionné d'accéder à autre chose que la page d'accueil, tout en autorisant d'autres robots d'exploration (tels que les moteurs de recherche) à accéder au site.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Laisser un commentaire pour votre futur vous

Vous pouvez commencer une ligne par # pour vous rappeler pourquoi vous avez ajouté une règle.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Pour en savoir plus, consultez notre liste de règles utiles pour les fichiers robots.txt.

Modifier votre fichier robots.txt (en pratique)

Le protocole d'exclusion des robots fonctionne en rassemblant des règles (allow ou disallow) et en spécifiant les robots auxquels ces règles s'appliquent. Vous n'avez pas besoin d'apprendre à programmer ni de vous servir d'outils. Il vous suffit de placer ces règles dans un fichier texte et de l'importer sur votre site Web.

Pour la plupart des sites Web, c'est encore plus simple. Si vous utilisez un CMS, celui-ci intègre généralement une fonctionnalité pour vous aider à modifier votre fichier robots.txt. Par exemple, certains CMS vous permettent de personnaliser votre fichier robots.txt à l'aide de cases à cocher ou d'un formulaire simple. De nombreux CMS sont également dotés de plug-ins qui vous aident à configurer et à écrire des règles pour votre fichier robots.txt. Pour vérifier ce qui est possible de faire dans votre CMS, vous pouvez effectuer une recherche en saisissant le nom de votre CMS suivi de "modifier le fichier robots.txt".

Une fois que vous avez tout configuré, vous pouvez également effectuer un test pour vous assurer que votre fichier est configuré comme vous le souhaitez. De nombreux outils de test créés par la communauté Web peuvent vous aider, comme l'outil de test du fichier robots.txt de TametheBot et cet analyseur de fichier robots.txt qui utilisent la bibliothèque d'analyseurs de fichiers robots.txt Open Source.

Si vous avez des questions sur le fichier robots.txt, vous pouvez nous contacter sur LinkedIn ou discuter avec des experts sur les forums de la communauté.


Découvrez le reste de la série de rappels sur les robots :