Règles utiles relatives aux fichiers robots.txt

Voici quelques règles courantes utiles concernant les fichiers robots.txt :

Règles utiles
Interdire l'exploration de l'ensemble du site

Notez que dans certains cas, les URL d'un site peuvent être indexées, même sans avoir été explorées.

User-agent: *
Disallow: /
Interdire l'exploration d'un répertoire et de son contenu

Ajoutez une barre oblique au nom du répertoire pour en empêcher l'exploration.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Autoriser l'accès pour un seul robot d'exploration

Seul googlebot-news peut explorer l'ensemble du site.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Autoriser l'accès pour tous les robots d'exploration sauf un

Unnecessarybot risque de ne pas explorer le site, contrairement à tous les autres robots.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Interdire l'exploration d'une seule page Web

Par exemple, interdisez l'exploration de la page useless_file.html située aux emplacements https://example.com/useless_file.html et other_useless_file.html dans le répertoire junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Interdire l'exploration de tout le site Web, sauf un sous-répertoire

Les robots d'exploration ont uniquement accès au sous-répertoire public.

User-agent: *
Disallow: /
Allow: /public/

Bloquer une image spécifique sur Google Images

Par exemple, interdisez l'exploration de l'image dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquer toutes les images de votre site sur Google Images

Nous ne pouvons pas indexer les images ni les vidéos sans les explorer.

User-agent: Googlebot-Image
Disallow: /

Interdire l'exploration de certains types de fichiers

Par exemple, interdisez l'exploration de tous les fichiers .gif.

User-agent: Googlebot
Disallow: /*.gif$

Interdire l'exploration de tout un site, mais autoriser Mediapartners-Google

Cette mise en œuvre masque vos pages dans les résultats de recherche, mais le robot d'exploration Mediapartners-Google peut tout de même les analyser pour déterminer quelles annonces diffuser auprès des visiteurs de votre site.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Utilisez les caractères génériques * et $ pour cibler les URL qui se terminent par une chaîne spécifique.

Par exemple, interdisez l'exploration de tous les fichiers .xls.

User-agent: Googlebot
Disallow: /*.xls$