Robots Refresher: robots.txt, uma maneira flexível de controlar como as máquinas analisam seu site

Sexta-feira, 7 de março de 2025

O robots.txt, uma ferramenta há muito tempo conhecida pelos proprietários de sites, está em uso ativo há mais de 30 anos e é amplamente aceito por operadores de rastreamento (como ferramentas para proprietários de sites, serviços e mecanismos de pesquisa). Nesta edição da série Robots Refresher, vamos analisar o robots.txt como uma maneira flexível de informar aos robôs o que você quer que eles façam (ou não façam) no seu site.

Introdução ao robots.txt

O funcionamento desses arquivos é simples: você cria um arquivo de texto chamado "robots.txt" e faz upload dele no seu site. Caso esteja usando um sistema de gerenciamento de conteúdo (CMS), o processo será ainda mais fácil. Você pode deixar o arquivo robots.txt vazio (ou não ter um) se todo o site puder ser rastreado ou adicionar regras para gerenciar o rastreamento. Por exemplo, para informar a todos os bots (também conhecidos como rastreadores, robôs, indexadores) que fiquem fora da página "adicionar ao carrinho", você pode escrever o seguinte no arquivo robots.txt:

user-agent: *
disallow: /cart

Outras ações específicas que você pode fazer com o robots.txt

O robots.txt é a ferramenta perfeita para expressar o que você quer que diferentes robôs façam ou não façam no seu site: ele pode ter apenas algumas linhas ou ser complexo, com regras mais elaboradas que segmentam padrões de URL muito específicos. É possível usar um arquivo robots.txt para resolver problemas técnicos, como páginas paginadas desnecessárias, ou por motivos editoriais ou pessoais, como não querer que determinadas informações sejam rastreadas. Por exemplo, você pode fazer o seguinte:

Informar a vários bots (mas não a todos) sobre a mesma regra

Esse grupo informa a examplebot e otherbot para ficarem longe do caminho /search.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Dizer a um bot para evitar caminhos que contêm um texto específico

Por exemplo, você pode dizer a documentsbot para não rastrear nenhum arquivo que contenha ".pdf" no nome.

user-agent: documentsbot
disallow: *.pdf

Dizer a um bot que ele pode rastrear seu blog, mas não os rascunhos

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Bloquear um rastreador em parte do site, permitindo que outros rastreadores acessem o site

Esse arquivo robots.txt impede que o aicorp-trainer-bot mencionado acesse qualquer informação além da página inicial, permitindo que outros rastreadores (como mecanismos de pesquisa) acessem o site.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Deixar um comentário para uso futuro

Você pode iniciar uma linha com # para lembrar por que colocou uma determinada regra.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Para mais informações, consulte nossa lista de regras úteis do robots.txt.

Como fazer mudanças no arquivo robots.txt (na prática)

O Protocolo de exclusão de robôs (REP, na sigla em inglês) funciona reunindo regras ("allow" ou "disallow") e especificando a quais robôs essas regras se aplicam. Você não precisa aprender programação ou gerenciar ferramentas. Basta colocar essas regras em um arquivo de texto e fazer upload para seu site.

Na maioria dos sites, o processo é ainda mais simples. Se você estiver usando um CMS, ele geralmente já terá algo integrado para ajudar a mudar o arquivo robots.txt. Por exemplo, alguns CMSs permitem personalizar o arquivo robots.txt usando caixas de seleção ou um formulário simples. Muitos têm plug-ins que ajudam a configurar e escrever regras para o arquivo robots.txt. Para verificar o que é possível fazer no seu CMS, pesquise o nome dele + "editar arquivo robots.txt".

Depois de configurar tudo, você também pode testar para garantir que o arquivo esteja configurado da maneira desejada. Há muitas ferramentas de teste criadas pela comunidade da Web para ajudar com isso, como a ferramenta de teste de robots.txt da TametheBot e este analisador de robots.txt que usam a biblioteca de analisadores de robots.txt de código aberto.

Se você tiver dúvidas sobre robots.txt, entre em contato com a gente pelo LinkedIn ou converse com especialistas nos fóruns da comunidade.


Confira o restante da série Robots Refresher: