Reglas útiles de robots.txt

A continuación, detallamos algunas reglas comunes de robots.txt que pueden resultarte útiles:

Reglas útiles
Inhabilitar el rastreo de todo el sitio

Ten en cuenta que, en determinadas situaciones, se pueden indexar las URL del sitio, incluso si no se las rastreó.

User-agent: *
Disallow: /
Inhabilita el rastreo de un directorio y su contenido.

Agrega una barra inclinada al nombre del directorio para inhabilitar el rastreo de un directorio completo.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Permitir acceso a un solo rastreador

Solo googlebot-news puede rastrear todo el sitio.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir acceso a todos los rastreadores excepto uno

Unnecessarybot no puede rastrear el sitio, pero todos los demás bots sí.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Inhabilitar el rastreo de una sola página web

Por ejemplo, inhabilita la página useless_file.html ubicada en https://example.com/useless_file.html, y other_useless_file.html en el directorio junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Inhabilitar el rastreo de todo el sitio, excepto de un subdirectorio

Los rastreadores solo pueden acceder al subdirectorio public.

User-agent: *
Disallow: /
Allow: /public/

Bloquear el uso de una imagen específica en Google Imágenes

Por ejemplo, inhabilita la imagen dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear el uso de todas las imágenes de tu sitio en Google Imágenes

Google no puede indexar imágenes ni videos sin rastrearlos.

User-agent: Googlebot-Image
Disallow: /

Inhabilitar el rastreo de archivos de un tipo de archivo específico

Por ejemplo, inhabilita el rastreo de todos los archivos .gif.

User-agent: Googlebot
Disallow: /*.gif$

Inhabilitar el rastreo de todo el sitio, pero permitir Mediapartners-Google

Con esta implementación, se ocultan tus páginas de los resultados de la búsqueda, pero el rastreador web Mediapartners-Google puede analizarlas para decidir qué anuncios mostrarles a los visitantes de tu sitio.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Usa los comodines * y $ para hacer coincidir las URLs que terminan con una cadena específica

Por ejemplo, inhabilita todos los archivos .xls.

User-agent: Googlebot
Disallow: /*.xls$