Reglas útiles de robots.txt
A continuación, detallamos algunas reglas comunes de robots.txt que pueden resultarte útiles:
| Reglas útiles | |
|---|---|
| Inhabilitar el rastreo de todo el sitio |
Ten en cuenta que, en determinadas situaciones, se pueden indexar las URL del sitio, incluso si no se las rastreó. User-agent: * Disallow: / |
| Inhabilita el rastreo de un directorio y su contenido. |
Agrega una barra inclinada al nombre del directorio para inhabilitar el rastreo de un directorio completo. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Permitir acceso a un solo rastreador |
Solo User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Permitir acceso a todos los rastreadores excepto uno |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Inhabilitar el rastreo de una sola página web |
Por ejemplo, inhabilita la página User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Inhabilitar el rastreo de todo el sitio, excepto de un subdirectorio |
Los rastreadores solo pueden acceder al subdirectorio User-agent: * Disallow: / Allow: /public/ |
|
Bloquear el uso de una imagen específica en Google Imágenes |
Por ejemplo, inhabilita la imagen User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Bloquear el uso de todas las imágenes de tu sitio en Google Imágenes |
Google no puede indexar imágenes ni videos sin rastrearlos. User-agent: Googlebot-Image Disallow: / |
|
Inhabilitar el rastreo de archivos de un tipo de archivo específico |
Por ejemplo, inhabilita el rastreo de todos los archivos User-agent: Googlebot Disallow: /*.gif$ |
|
Inhabilitar el rastreo de todo el sitio, pero permitir |
Con esta implementación, se ocultan tus páginas de los resultados de la búsqueda, pero el rastreador web User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Usa los comodines * y $ para hacer coincidir las URLs que terminan con una cadena específica
|
Por ejemplo, inhabilita todos los archivos User-agent: Googlebot Disallow: /*.xls$ |