Règles utiles relatives aux fichiers robots.txt
Voici quelques règles courantes utiles concernant les fichiers robots.txt :
| Règles utiles | |
|---|---|
| Interdire l'exploration de l'ensemble du site |
Notez que dans certains cas, les URL d'un site peuvent être indexées, même sans avoir été explorées. User-agent: * Disallow: / |
| Interdire l'exploration d'un répertoire et de son contenu |
Ajoutez une barre oblique au nom du répertoire pour en empêcher l'exploration. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Autoriser l'accès pour un seul robot d'exploration |
Seul User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Autoriser l'accès pour tous les robots d'exploration sauf un |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Interdire l'exploration d'une seule page Web |
Par exemple, interdisez l'exploration de la page User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Interdire l'exploration de tout le site Web, sauf un sous-répertoire |
Les robots d'exploration ont uniquement accès au sous-répertoire User-agent: * Disallow: / Allow: /public/ |
|
Bloquer une image spécifique sur Google Images |
Par exemple, interdisez l'exploration de l'image User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Bloquer toutes les images de votre site sur Google Images |
Nous ne pouvons pas indexer les images ni les vidéos sans les explorer. User-agent: Googlebot-Image Disallow: / |
|
Interdire l'exploration de certains types de fichiers |
Par exemple, interdisez l'exploration de tous les fichiers User-agent: Googlebot Disallow: /*.gif$ |
|
Interdire l'exploration de tout un site, mais autoriser |
Cette mise en œuvre masque vos pages dans les résultats de recherche, mais le robot d'exploration User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Utilisez les caractères génériques * et $ pour cibler les URL qui se terminent par une chaîne spécifique.
|
Par exemple, interdisez l'exploration de tous les fichiers User-agent: Googlebot Disallow: /*.xls$ |