Esta página foi traduzida pela API Cloud Translation.

robots.txt não é válido

O arquivo robots.txt informa aos mecanismos de pesquisa quais das páginas do seu site eles podem rastrear. Uma configuração robots.txt inválida pode causar dois tipos de problemas:

Isso pode impedir que os mecanismos de pesquisa rastreiem páginas públicas, fazendo com que seu conteúdo apareça com menos frequência nos resultados da pesquisa.
Isso pode fazer com que os mecanismos de pesquisa rastreiem páginas que você não quer que apareçam nos resultados.

Como a auditoria de `robots.txt` do Lighthouse falha

O Lighthouse sinaliza arquivos robots.txt inválidos:

Auditoria do Lighthouse mostrando um arquivo robots.txt inválido

Observação:a maioria das auditorias do Lighthouse se aplica apenas à página em que você está no momento. No entanto, como robots.txt é definido no nível do nome do host, essa auditoria se aplica a todo o domínio (ou subdomínio).

Expanda a auditoria robots.txt não é válida no seu relatório para saber o que há de errado com seu robots.txt.

Exemplos de erros comuns:

No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern

O Lighthouse não verifica se o arquivo robots.txt está no local correto. Para funcionar corretamente, o arquivo precisa estar na raiz do domínio ou subdomínio.

Como corrigir problemas com o `robots.txt`

Verifique se `robots.txt` não retorna um código de status HTTP 5XX

Se o servidor retornar um erro de servidor (um código de status HTTP nos erros 500) para robots.txt, os mecanismos de pesquisa não saberão quais páginas precisam ser rastreadas. Eles podem parar de rastrear todo o site, o que impede a indexação de novo conteúdo.

Para conferir o código de status HTTP, abra robots.txt no Chrome e verifique a solicitação no Chrome DevTools.

Manter o `robots.txt` menor que 500 KiB

Os mecanismos de pesquisa poderão parar de processar robots.txt no meio se o arquivo for maior que 500 KiB. Isso pode confundir o mecanismo de pesquisa, levando ao rastreamento incorreto do seu site.

Para manter robots.txt pequeno, concentre-se menos em páginas excluídas individualmente e mais em padrões mais amplos. Por exemplo, se você precisar bloquear o rastreamento de arquivos PDF, não bloqueie cada arquivo individual. Em vez disso, bloqueie todos os URLs que contenham .pdf usando disallow: /*.pdf.

Corrigir erros de formato

Somente linhas vazias, comentários e diretivas que correspondem ao formato "name: value" são permitidos em robots.txt.
Confira se os valores allow e disallow estão vazios ou começam com / ou *.
Não use $ no meio de um valor (por exemplo, allow: /file$html).

Verifique se há um valor para `user-agent`

Nomes de user agent para informar aos rastreadores do mecanismo de pesquisa quais diretivas devem ser seguidas. É necessário fornecer um valor para cada instância de user-agent para que os mecanismos de pesquisa saibam se precisam seguir o conjunto de diretivas associado.

Para especificar um rastreador de mecanismo de pesquisa específico, use o nome de um user agent da lista publicada. Por exemplo, esta é a lista de user agents do Google usados para rastreamento.

Use * para corresponder a todos os rastreadores sem correspondência.

O que não fazer

user-agent:
disallow: /downloads/

Nenhum user agent foi definido.

O que fazer

user-agent: *
disallow: /downloads/

user-agent: magicsearchbot
disallow: /uploads/

Foram definidos um user agent geral e um user agent magicsearchbot.

Verifique se não há diretivas `allow` ou `disallow` antes de `user-agent`

Os nomes de user agent definem as seções do arquivo robots.txt. Os rastreadores de mecanismos de pesquisa usam essas seções para determinar quais diretivas seguir. Colocar uma diretiva antes do primeiro nome de user agent significa que nenhum rastreador o seguirá.

O que não fazer

# start of file
disallow: /downloads/

user-agent: magicsearchbot
allow: /

Nenhum rastreador de mecanismo de pesquisa vai ler a diretiva disallow: /downloads.

O que fazer

# start of file
user-agent: *
disallow: /downloads/

Nenhum mecanismo de pesquisa pode rastrear a pasta /downloads.

Os rastreadores de mecanismos de pesquisa só seguem as diretivas da seção com o nome de user agent mais específico. Por exemplo, se você tiver diretivas para user-agent: * e user-agent: Googlebot-Image, o Googlebot Imagens só vai seguir as diretivas na seção user-agent: Googlebot-Image.

Forneça um URL absoluto para `sitemap`

Os arquivos de sitemap são uma ótima maneira de informar os mecanismos de pesquisa sobre as páginas do seu site. Um arquivo de sitemap geralmente inclui uma lista dos URLs no seu site, além de informações sobre quando eles foram alterados pela última vez.

Se você optar por enviar um arquivo de sitemap em robots.txt, use um URL absoluto.

O que não fazer

sitemap: /sitemap-file.xml

O que fazer

sitemap: https://example.com/sitemap-file.xml

robots.txt não é válido

Como a auditoria de robots.txt do Lighthouse falha

Como corrigir problemas com o robots.txt

Verifique se robots.txt não retorna um código de status HTTP 5XX

Manter o robots.txt menor que 500 KiB

Corrigir erros de formato

Verifique se há um valor para user-agent

Verifique se não há diretivas allow ou disallow antes de user-agent

Forneça um URL absoluto para sitemap

Recursos

Como a auditoria de `robots.txt` do Lighthouse falha

Como corrigir problemas com o `robots.txt`

Verifique se `robots.txt` não retorna um código de status HTTP 5XX

Manter o `robots.txt` menor que 500 KiB

Verifique se há um valor para `user-agent`

Verifique se não há diretivas `allow` ou `disallow` antes de `user-agent`

Forneça um URL absoluto para `sitemap`