Reglas útiles de los archivos robots.txt
A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:
| Reglas útiles | |
|---|---|
| Bloquear el rastreo de todo el sitio |
Recuerda que, en algunas situaciones, las URLs del sitio web se indexarán aunque no se hayan rastreado previamente. User-agent: * Disallow: / |
| Bloquear el rastreo de un directorio y de su contenido |
Añade una barra inclinada al final del nombre del directorio para impedir el rastreo de un directorio completo. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Permitir que acceda un solo rastreador |
Solo User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Permitir que accedan todos los rastreadores, excepto uno concreto |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Bloquear el rastreo de una sola página web |
Por ejemplo, puedes bloquear la página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Bloquear el rastreo de todo el sitio excepto un subdirectorio |
Los rastreadores solo pueden acceder al subdirectorio User-agent: * Disallow: / Allow: /public/ |
|
Bloquear una imagen concreta para que no aparezca en Google Imágenes |
Por ejemplo, puedes inhabilitar la imagen User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Bloquear todas las imágenes que haya en tu sitio para que no aparezcan en Google Imágenes |
Google no puede indexar imágenes ni vídeos sin rastrearlos. User-agent: Googlebot-Image Disallow: / |
|
Bloquear el rastreo de un tipo de archivo concreto |
Por ejemplo, impedir que se rastreen todos los archivos User-agent: Googlebot Disallow: /*.gif$ |
|
Bloquear el rastreo de todo el sitio, pero permitir |
Con esta regla, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Usar los comodines * y $ para que las URLs coincidan y terminen en una cadena concreta
|
Por ejemplo, no se permiten archivos User-agent: Googlebot Disallow: /*.xls$ |