Sexta-feira, 7 de março de 2025
O robots.txt, uma ferramenta há muito tempo conhecida pelos proprietários de sites, está em uso ativo há mais de 30 anos e é amplamente aceito por operadores de rastreamento (como ferramentas para proprietários de sites, serviços e mecanismos de pesquisa). Nesta edição da série Robots Refresher, vamos analisar o robots.txt como uma maneira flexível de informar aos robôs o que você quer que eles façam (ou não façam) no seu site.
Introdução ao robots.txt
O funcionamento desses arquivos é simples: você cria um arquivo de texto chamado "robots.txt" e faz upload dele no seu site. Caso esteja usando um sistema de gerenciamento de conteúdo (CMS), o processo será ainda mais fácil. Você pode deixar o arquivo robots.txt vazio (ou não ter um) se todo o site puder ser rastreado ou adicionar regras para gerenciar o rastreamento. Por exemplo, para informar a todos os bots (também conhecidos como rastreadores, robôs, indexadores) que fiquem fora da página "adicionar ao carrinho", você pode escrever o seguinte no arquivo robots.txt:
user-agent: * disallow: /cart
Outras ações específicas que você pode fazer com o robots.txt
O robots.txt é a ferramenta perfeita para expressar o que você quer que diferentes robôs façam ou não façam no seu site: ele pode ter apenas algumas linhas ou ser complexo, com regras mais elaboradas que segmentam padrões de URL muito específicos. É possível usar um arquivo robots.txt para resolver problemas técnicos, como páginas paginadas desnecessárias, ou por motivos editoriais ou pessoais, como não querer que determinadas informações sejam rastreadas. Por exemplo, você pode fazer o seguinte:
Informar a vários bots (mas não a todos) sobre a mesma regra
Esse grupo informa a |
user-agent: examplebot user-agent: otherbot disallow: /search |
Dizer a um bot para evitar caminhos que contêm um texto específico
Por exemplo, você pode dizer a |
user-agent: documentsbot disallow: *.pdf |
Dizer a um bot que ele pode rastrear seu blog, mas não os rascunhos |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Bloquear um rastreador em parte do site, permitindo que outros rastreadores acessem o site
Esse arquivo robots.txt impede que o |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Deixar um comentário para uso futuro
Você pode iniciar uma linha com |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Para mais informações, consulte nossa lista de regras úteis do robots.txt.
Como fazer mudanças no arquivo robots.txt (na prática)
O Protocolo de exclusão de robôs (REP, na sigla em inglês) funciona reunindo regras ("allow" ou "disallow") e especificando a quais robôs essas regras se aplicam. Você não precisa aprender programação ou gerenciar ferramentas. Basta colocar essas regras em um arquivo de texto e fazer upload para seu site.
Na maioria dos sites, o processo é ainda mais simples. Se você estiver usando um CMS, ele geralmente já terá algo integrado para ajudar a mudar o arquivo robots.txt. Por exemplo, alguns CMSs permitem personalizar o arquivo robots.txt usando caixas de seleção ou um formulário simples. Muitos têm plug-ins que ajudam a configurar e escrever regras para o arquivo robots.txt. Para verificar o que é possível fazer no seu CMS, pesquise o nome dele + "editar arquivo robots.txt".
Depois de configurar tudo, você também pode testar para garantir que o arquivo esteja configurado da maneira desejada. Há muitas ferramentas de teste criadas pela comunidade da Web para ajudar com isso, como a ferramenta de teste de robots.txt da TametheBot e este analisador de robots.txt que usam a biblioteca de analisadores de robots.txt de código aberto.
Se você tiver dúvidas sobre robots.txt, entre em contato com a gente pelo LinkedIn ou converse com especialistas nos fóruns da comunidade.