O arquivo robots.txt
informa aos mecanismos de pesquisa quais das páginas do seu site eles podem
rastrear. Uma configuração robots.txt
inválida pode causar dois tipos de problemas:
- Isso pode impedir que os mecanismos de pesquisa rastreiem páginas públicas, fazendo com que seu conteúdo apareça com menos frequência nos resultados da pesquisa.
- Isso pode fazer com que os mecanismos de pesquisa rastreiem páginas que você não quer que apareçam nos resultados.
Como a auditoria de robots.txt
do Lighthouse falha
O Lighthouse sinaliza arquivos
robots.txt
inválidos:
Expanda a auditoria robots.txt
não é válida no seu relatório
para saber o que há de errado com seu robots.txt
.
Exemplos de erros comuns:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
O Lighthouse não verifica se o arquivo robots.txt
está
no local correto. Para funcionar corretamente, o arquivo precisa estar na raiz do domínio ou subdomínio.
Como corrigir problemas com o robots.txt
Verifique se robots.txt
não retorna um código de status HTTP 5XX
Se o servidor retornar um erro de servidor (um código de status HTTP
nos erros 500) para robots.txt
, os mecanismos de pesquisa não saberão quais páginas precisam ser
rastreadas. Eles podem parar de rastrear todo o site, o que impede a indexação de novo conteúdo.
Para conferir o código de status HTTP, abra robots.txt
no Chrome e
verifique a solicitação no Chrome DevTools.
Manter o robots.txt
menor que 500 KiB
Os mecanismos de pesquisa poderão parar de processar robots.txt
no meio se o arquivo for
maior que 500 KiB. Isso pode confundir o mecanismo de pesquisa, levando ao rastreamento incorreto do seu site.
Para manter robots.txt
pequeno, concentre-se menos em páginas excluídas individualmente e mais
em padrões mais amplos. Por exemplo, se você precisar bloquear o rastreamento de arquivos PDF, não bloqueie cada arquivo individual. Em vez disso, bloqueie todos os URLs que contenham
.pdf
usando disallow: /*.pdf
.
Corrigir erros de formato
- Somente linhas vazias, comentários e diretivas que correspondem ao formato "name: value" são
permitidos em
robots.txt
. - Confira se os valores
allow
edisallow
estão vazios ou começam com/
ou*
. - Não use
$
no meio de um valor (por exemplo,allow: /file$html
).
Verifique se há um valor para user-agent
Nomes de user agent para informar aos rastreadores do mecanismo de pesquisa quais diretivas devem ser seguidas. É necessário
fornecer um valor para cada instância de user-agent
para que os mecanismos de pesquisa saibam
se precisam seguir o conjunto de diretivas associado.
Para especificar um rastreador de mecanismo de pesquisa específico, use o nome de um user agent da lista publicada. Por exemplo, esta é a lista de user agents do Google usados para rastreamento.
Use *
para corresponder a todos os rastreadores sem correspondência.
user-agent: disallow: /downloads/
Nenhum user agent foi definido.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Foram definidos um user agent geral e um user agent magicsearchbot
.
Verifique se não há diretivas allow
ou disallow
antes de user-agent
Os nomes de user agent definem as seções do arquivo robots.txt
. Os rastreadores
de mecanismos de pesquisa usam essas seções para determinar quais diretivas seguir. Colocar uma
diretiva antes do primeiro nome de user agent significa que nenhum rastreador o seguirá.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Nenhum rastreador de mecanismo de pesquisa vai ler a diretiva disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Nenhum mecanismo de pesquisa pode rastrear a pasta /downloads
.
Os rastreadores de mecanismos de pesquisa só seguem as diretivas da seção com o nome de user agent mais específico. Por exemplo, se você tiver diretivas para
user-agent: *
e user-agent: Googlebot-Image
, o Googlebot Imagens só
vai seguir as diretivas na seção user-agent: Googlebot-Image
.
Forneça um URL absoluto para sitemap
Os arquivos de sitemap são uma ótima maneira de informar os mecanismos de pesquisa sobre as páginas do seu site. Um arquivo de sitemap geralmente inclui uma lista dos URLs no seu site, além de informações sobre quando eles foram alterados pela última vez.
Se você optar por enviar um arquivo de sitemap em robots.txt
, use um URL absoluto.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml