Regras úteis do arquivo robots.txt

Veja aqui algumas regras úteis do arquivo robots.txt:

Regras úteis
Não permitir o rastreamento do site inteiro

Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados.

User-agent: *
Disallow: /
Não permitir o rastreamento de um diretório e o conteúdo dele

Acrescente uma barra depois do nome do diretório para não permitir o rastreamento do diretório inteiro.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Permitir acesso a um único rastreador

Somente o googlebot-news poderá rastrear o site inteiro.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir acesso a todos os rastreadores, exceto um deles

O Unnecessarybot não poderá rastrear o site, mas os outros bots poderão.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Não permitir o rastreamento de uma página da Web

Por exemplo, não permitir a página useless_file.html localizada em https://example.com/useless_file.html e other_useless_file.html no diretório junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Impedir o rastreamento do site inteiro, exceto um subdiretório

Os rastreadores só podem acessar o subdiretório public.

User-agent: *
Disallow: /
Allow: /public/

Bloquear uma imagem específica das Imagens do Google

Por exemplo, não permitir a imagem dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas as imagens do seu site das Imagens do Google

O Google não consegue indexar imagens e vídeos sem rastreá-los.

User-agent: Googlebot-Image
Disallow: /

Não permitir o rastreamento de arquivos de um tipo específico

Por exemplo, não permitir o rastreamento de todos os arquivos .gif.

User-agent: Googlebot
Disallow: /*.gif$

Não permitir o rastreamento de um site inteiro, mas permitir o Mediapartners-Google

Essa implementação oculta as páginas dos resultados da pesquisa, mas o rastreador da Web Mediapartners-Google ainda vai poder fazer a análise delas e decidir quais anúncios exibir aos visitantes do site.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Usar os caracteres curinga * e $ para corresponder a URLs que terminam com uma string específica.

Por exemplo, não permitir todos os arquivos .xls.

User-agent: Googlebot
Disallow: /*.xls$