robots.txt não é válido

O arquivo robots.txt informa aos mecanismos de pesquisa quais das páginas do seu site eles podem rastrear. Uma configuração robots.txt inválida pode causar dois tipos de problemas:

  • Isso pode impedir que os mecanismos de pesquisa rastreiem páginas públicas, fazendo com que seu conteúdo apareça com menos frequência nos resultados da pesquisa.
  • Isso pode fazer com que os mecanismos de pesquisa rastreiem páginas que você não quer que apareçam nos resultados.

Como a auditoria de robots.txt do Lighthouse falha

O Lighthouse sinaliza arquivos robots.txt inválidos:

Auditoria do Lighthouse mostrando um arquivo robots.txt inválido

Expanda a auditoria robots.txt não é válida no seu relatório para saber o que há de errado com seu robots.txt.

Exemplos de erros comuns:

  • No user-agent specified
  • Pattern should either be empty, start with "/" or "*"
  • Unknown directive
  • Invalid sitemap URL
  • $ should only be used at the end of the pattern

O Lighthouse não verifica se o arquivo robots.txt está no local correto. Para funcionar corretamente, o arquivo precisa estar na raiz do domínio ou subdomínio.

Como corrigir problemas com o robots.txt

Verifique se robots.txt não retorna um código de status HTTP 5XX

Se o servidor retornar um erro de servidor (um código de status HTTP nos erros 500) para robots.txt, os mecanismos de pesquisa não saberão quais páginas precisam ser rastreadas. Eles podem parar de rastrear todo o site, o que impede a indexação de novo conteúdo.

Para conferir o código de status HTTP, abra robots.txt no Chrome e verifique a solicitação no Chrome DevTools.

Manter o robots.txt menor que 500 KiB

Os mecanismos de pesquisa poderão parar de processar robots.txt no meio se o arquivo for maior que 500 KiB. Isso pode confundir o mecanismo de pesquisa, levando ao rastreamento incorreto do seu site.

Para manter robots.txt pequeno, concentre-se menos em páginas excluídas individualmente e mais em padrões mais amplos. Por exemplo, se você precisar bloquear o rastreamento de arquivos PDF, não bloqueie cada arquivo individual. Em vez disso, bloqueie todos os URLs que contenham .pdf usando disallow: /*.pdf.

Corrigir erros de formato

  • Somente linhas vazias, comentários e diretivas que correspondem ao formato "name: value" são permitidos em robots.txt.
  • Confira se os valores allow e disallow estão vazios ou começam com / ou *.
  • Não use $ no meio de um valor (por exemplo, allow: /file$html).

Verifique se há um valor para user-agent

Nomes de user agent para informar aos rastreadores do mecanismo de pesquisa quais diretivas devem ser seguidas. É necessário fornecer um valor para cada instância de user-agent para que os mecanismos de pesquisa saibam se precisam seguir o conjunto de diretivas associado.

Para especificar um rastreador de mecanismo de pesquisa específico, use o nome de um user agent da lista publicada. Por exemplo, esta é a lista de user agents do Google usados para rastreamento.

Use * para corresponder a todos os rastreadores sem correspondência.

O que não fazer
user-agent:
disallow: /downloads/

Nenhum user agent foi definido.

O que fazer
user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Foram definidos um user agent geral e um user agent magicsearchbot.

Verifique se não há diretivas allow ou disallow antes de user-agent

Os nomes de user agent definem as seções do arquivo robots.txt. Os rastreadores de mecanismos de pesquisa usam essas seções para determinar quais diretivas seguir. Colocar uma diretiva antes do primeiro nome de user agent significa que nenhum rastreador o seguirá.

O que não fazer
# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nenhum rastreador de mecanismo de pesquisa vai ler a diretiva disallow: /downloads.

O que fazer
# start of file
user-agent: *
disallow: /downloads/

Nenhum mecanismo de pesquisa pode rastrear a pasta /downloads.

Os rastreadores de mecanismos de pesquisa só seguem as diretivas da seção com o nome de user agent mais específico. Por exemplo, se você tiver diretivas para user-agent: * e user-agent: Googlebot-Image, o Googlebot Imagens só vai seguir as diretivas na seção user-agent: Googlebot-Image.

Forneça um URL absoluto para sitemap

Os arquivos de sitemap são uma ótima maneira de informar os mecanismos de pesquisa sobre as páginas do seu site. Um arquivo de sitemap geralmente inclui uma lista dos URLs no seu site, além de informações sobre quando eles foram alterados pela última vez.

Se você optar por enviar um arquivo de sitemap em robots.txt, use um URL absoluto.

O que não fazer
sitemap: /sitemap-file.xml
O que fazer
sitemap: https://example.com/sitemap-file.xml

Recursos