Reglas útiles de los archivos robots.txt

A continuación, se indican algunas reglas de robots.txt habituales que te pueden resultar útiles:

Reglas útiles
Bloquear el rastreo de todo el sitio

Recuerda que, en algunas situaciones, las URLs del sitio web se indexarán aunque no se hayan rastreado previamente.

User-agent: *
Disallow: /
Bloquear el rastreo de un directorio y de su contenido

Añade una barra inclinada al final del nombre del directorio para impedir el rastreo de un directorio completo.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Permitir que acceda un solo rastreador

Solo googlebot-news puede rastrear todo el sitio.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir que accedan todos los rastreadores, excepto uno concreto

Unnecessarybot no puede rastrear el sitio, pero el resto de los robots sí podrán hacerlo.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Bloquear el rastreo de una sola página web

Por ejemplo, puedes bloquear la página useless_file.html que se encuentra en https://example.com/useless_file.html y other_useless_file.html en el directorio junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Bloquear el rastreo de todo el sitio excepto un subdirectorio

Los rastreadores solo pueden acceder al subdirectorio public.

User-agent: *
Disallow: /
Allow: /public/

Bloquear una imagen concreta para que no aparezca en Google Imágenes

Por ejemplo, puedes inhabilitar la imagen dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas las imágenes que haya en tu sitio para que no aparezcan en Google Imágenes

Google no puede indexar imágenes ni vídeos sin rastrearlos.

User-agent: Googlebot-Image
Disallow: /

Bloquear el rastreo de un tipo de archivo concreto

Por ejemplo, impedir que se rastreen todos los archivos .gif.

User-agent: Googlebot
Disallow: /*.gif$

Bloquear el rastreo de todo el sitio, pero permitir Mediapartners-Google

Con esta regla, las páginas no aparecen en los resultados de búsqueda, pero el rastreador web Mediapartners-Google aún puede analizarlas para decidir qué anuncios se mostrarán a los visitantes del sitio.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Usar los comodines * y $ para que las URLs coincidan y terminen en una cadena concreta

Por ejemplo, no se permiten archivos .xls.

User-agent: Googlebot
Disallow: /*.xls$