Le fichier robots.txt n'est pas valide

Le fichier robots.txt indique aux moteurs de recherche les pages de votre site qu'ils peuvent explorer. Une configuration robots.txt non valide peut entraîner deux types de problèmes:

  • Il empêche les moteurs de recherche d'explorer les pages publiques, ce qui réduit la fréquence d'affichage de votre contenu dans les résultats de recherche.
  • Cela peut amener les moteurs de recherche à explorer des pages que vous ne souhaitez pas voir s'afficher dans les résultats de recherche.

Échec de l'audit robots.txt de Lighthouse

Lighthouse indique des fichiers robots.txt non valides:

Audit Lighthouse affichant un fichier robots.txt non valide

Développez l'audit robots.txt n'est pas valide dans votre rapport pour découvrir le problème concernant votre robots.txt.

Voici quelques erreurs courantes:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

Lighthouse ne vérifie pas que votre fichier robots.txt se trouve au bon emplacement. Pour fonctionner correctement, le fichier doit se trouver à la racine de votre domaine ou sous-domaine.

Résoudre les problèmes liés à robots.txt

Assurez-vous que robots.txt ne renvoie pas de code d'état HTTP 5XX

Si votre serveur renvoie une erreur de serveur (un code d'état HTTP au format 500) pour robots.txt, les moteurs de recherche ne sauront pas quelles pages doivent être explorées. Ils risquent de cesser d'explorer l'ensemble de votre site, ce qui empêcherait l'indexation du nouveau contenu.

Pour vérifier le code d'état HTTP, ouvrez robots.txt dans Chrome, puis vérifiez la demande dans les outils pour les développeurs Chrome.

Laisser robots.txt inférieur à 500 Kio

Les moteurs de recherche peuvent cesser de traiter robots.txt en cours de route si le fichier dépasse 500 Kio. Cela peut perturber le moteur de recherche et entraîner une exploration incorrecte de votre site.

Pour limiter la taille de robots.txt, concentrez-vous sur les formats plus larges plutôt que sur les pages exclues individuellement. Par exemple, si vous devez bloquer l'exploration des fichiers PDF, n'autorisez pas chaque fichier individuellement. Interdisez plutôt toutes les URL contenant .pdf en utilisant disallow: /*.pdf.

Corrigez les erreurs de format

  • Seuls les lignes, les commentaires et les directives vides correspondant au format "name: value" sont autorisés dans robots.txt.
  • Assurez-vous que les valeurs allow et disallow sont vides, ou commencent par / ou *.
  • N'utilisez pas $ au milieu d'une valeur (par exemple, allow: /file$html).

Assurez-vous qu'il existe une valeur pour user-agent

Noms des user-agents pour indiquer aux robots d'exploration des moteurs de recherche les instructions à suivre Vous devez fournir une valeur pour chaque instance de user-agent afin que les moteurs de recherche sachent s'ils doivent suivre l'ensemble d'instructions associé.

Pour spécifier un robot d'exploration de moteur de recherche spécifique, utilisez un nom de user-agent de sa liste publiée. Par exemple, voici la liste des user-agents utilisés pour l'exploration de Google.

Utilisez * pour établir une correspondance avec tous les autres robots d'exploration sans correspondance.

À éviter
user-agent:
disallow: /downloads/

Aucun user-agent n'est défini.

À faire
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Un user-agent général et un user-agent magicsearchbot sont définis.

Assurez-vous qu'il n'y a pas d'instruction allow ou disallow avant user-agent

Les noms des user-agents définissent les sections de votre fichier robots.txt. Les robots d'exploration des moteurs de recherche se basent sur ces sections pour déterminer les instructions à suivre. Si vous placez une instruction avant le nom du premier user-agent, aucun robot d'exploration ne pourra le suivre.

À éviter
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Aucun robot d'exploration de moteur de recherche ne lira la directive disallow: /downloads.

À faire
# start of file
user-agent: *
disallow: /downloads/

Aucun moteur de recherche n'est autorisé à explorer le dossier /downloads.

Les robots d'exploration des moteurs de recherche ne suivent que les instructions de la section contenant le nom du user-agent le plus spécifique. Par exemple, si vous avez des instructions pour user-agent: * et user-agent: Googlebot-Image, Googlebot ne suivra que les instructions de la section user-agent: Googlebot-Image.

Indiquez une URL absolue pour sitemap

Les fichiers sitemap sont un excellent moyen d'informer les moteurs de recherche sur les pages de votre site Web. Un fichier sitemap comprend généralement une liste des URL de votre site Web, ainsi que des informations sur la date de leur dernière modification.

Si vous choisissez d'envoyer un fichier sitemap dans robots.txt, assurez-vous d'utiliser une URL absolue.

À éviter
sitemap: /sitemap-file.xml
À faire
sitemap: https://example.com/sitemap-file.xml

Ressources