Robots Refresher: robots.txt, uma maneira flexível de controlar como as máquinas analisam seu site

Sexta-feira, 7 de março de 2025

O robots.txt, uma ferramenta há muito tempo conhecida pelos proprietários de sites, está em uso ativo há mais de 30 anos e é amplamente aceito por operadores de rastreamento (como ferramentas para proprietários de sites, serviços e mecanismos de pesquisa). Nesta edição da série Robots Refresher, vamos analisar o robots.txt como uma maneira flexível de informar aos robôs o que você quer que eles façam (ou não façam) no seu site.

Introdução ao robots.txt

O funcionamento desses arquivos é simples: você cria um arquivo de texto chamado "robots.txt" e faz upload dele no seu site. Caso esteja usando um sistema de gerenciamento de conteúdo (CMS), o processo será ainda mais fácil. Você pode deixar o arquivo robots.txt vazio (ou não ter um) se todo o site puder ser rastreado ou adicionar regras para gerenciar o rastreamento. Por exemplo, para informar a todos os bots (também conhecidos como rastreadores, robôs, indexadores) que fiquem fora da página "adicionar ao carrinho", você pode escrever o seguinte no arquivo robots.txt:

user-agent: *
disallow: /cart

Outras ações específicas que você pode fazer com o robots.txt

O robots.txt é a ferramenta perfeita para expressar o que você quer que diferentes robôs façam ou não façam no seu site: ele pode ter apenas algumas linhas ou ser complexo, com regras mais elaboradas que segmentam padrões de URL muito específicos. É possível usar um arquivo robots.txt para resolver problemas técnicos, como páginas paginadas desnecessárias, ou por motivos editoriais ou pessoais, como não querer que determinadas informações sejam rastreadas. Por exemplo, você pode fazer o seguinte:

Informar a vários bots (mas não a todos) sobre a mesma regra Esse grupo informa a `examplebot` e `otherbot` para ficarem longe do caminho `/search`.	user-agent: examplebot user-agent: otherbot disallow: /search
Dizer a um bot para evitar caminhos que contêm um texto específico Por exemplo, você pode dizer a `documentsbot` para não rastrear nenhum arquivo que contenha ".pdf" no nome.	user-agent: documentsbot disallow: *.pdf
Dizer a um bot que ele pode rastrear seu blog, mas não os rascunhos	user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/
Bloquear um rastreador em parte do site, permitindo que outros rastreadores acessem o site Esse arquivo robots.txt impede que o `aicorp-trainer-bot` mencionado acesse qualquer informação além da página inicial, permitindo que outros rastreadores (como mecanismos de pesquisa) acessem o site.	user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$
Deixar um comentário para uso futuro Você pode iniciar uma linha com `#` para lembrar por que colocou uma determinada regra.	# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/

Para mais informações, consulte nossa lista de regras úteis do robots.txt.

Como fazer mudanças no arquivo robots.txt (na prática)

O Protocolo de exclusão de robôs (REP, na sigla em inglês) funciona reunindo regras ("allow" ou "disallow") e especificando a quais robôs essas regras se aplicam. Você não precisa aprender programação ou gerenciar ferramentas. Basta colocar essas regras em um arquivo de texto e fazer upload para seu site.

Na maioria dos sites, o processo é ainda mais simples. Se você estiver usando um CMS, ele geralmente já terá algo integrado para ajudar a mudar o arquivo robots.txt. Por exemplo, alguns CMSs permitem personalizar o arquivo robots.txt usando caixas de seleção ou um formulário simples. Muitos têm plug-ins que ajudam a configurar e escrever regras para o arquivo robots.txt. Para verificar o que é possível fazer no seu CMS, pesquise o nome dele + "editar arquivo robots.txt".

Depois de configurar tudo, você também pode testar para garantir que o arquivo esteja configurado da maneira desejada. Há muitas ferramentas de teste criadas pela comunidade da Web para ajudar com isso, como a ferramenta de teste de robots.txt da TametheBot e este analisador de robots.txt que usam a biblioteca de analisadores de robots.txt de código aberto.

Se você tiver dúvidas sobre robots.txt, entre em contato com a gente pelo LinkedIn ou converse com especialistas nos fóruns da comunidade.

Postado por Martin Splitt e John Mueller, equipe de Relações da Pesquisa

Robots Refresher: robots.txt, uma maneira flexível de controlar como as máquinas analisam seu site Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Introdução ao robots.txt

Outras ações específicas que você pode fazer com o robots.txt

Como fazer mudanças no arquivo robots.txt (na prática)

Confira o restante da série Robots Refresher:

Robots Refresher: robots.txt, uma maneira flexível de controlar como as máquinas analisam seu site