Robots Refresher: uma nova série

Segunda-feira, 24 de fevereiro de 2025

Às vezes, recebemos perguntas sobre o robots.txt, metatags robots e o controle que eles oferecem. Seguindo nossa série de dezembro sobre rastreamento, pensamos que este seria o momento perfeito para fazer uma revisão rápida. Se você tem curiosidade sobre esses controles, acompanhe esta nova série de postagens no blog.

Vamos começar com o robots.txt.

O que é o robots.txt?

Um robots.txt é um arquivo que qualquer site pode fornecer. Na forma mais simples, é um arquivo de texto armazenado no servidor. Quase todos os sites têm um arquivo robots.txt. Para ver um arquivo desse tipo, adicione /robots.txt ao final do nome de domínio e navegue até esse endereço. Por exemplo, o arquivo robots.txt deste site está em developers.google.com/robots.txt.

A maioria dos sites usa sistemas de gerenciamento de conteúdo (CMSs) que criam esses arquivos automaticamente. No entanto, mesmo se você estiver criando seu site manualmente, o processo de criação é simples. Vamos conferir algumas variações em postagens futuras.

Para que servem esses arquivos?

Os arquivos robots.txt informam aos rastreadores de sites quais partes de um site estão disponíveis para acesso automatizado (o que é chamado de "rastreamento") e quais não estão. Isso permite que os sites abordem tudo, desde o site inteiro, partes dele ou até arquivos específicos. Além de serem legíveis por máquinas, os arquivos também são legíveis por humanos. Isso significa que sempre há uma resposta simples de sim ou não sobre se uma página pode ser acessada de forma automatizada por um rastreador específico.

É prática padrão que qualquer pessoa que crie um rastreador siga essas diretrizes, e é fácil para um desenvolvedor oferecer suporte a elas. Há mais de mil bibliotecas de código aberto disponíveis para desenvolvedores. O arquivo fornece instruções aos rastreadores para o rastreamento ideal de um site. Os sites modernos podem ser complexos, a navegação automática pode ser desafiadora, e as regras do robots.txt ajudam os rastreadores a se concentrar no conteúdo apropriado. Isso também ajuda os rastreadores a evitar páginas criadas dinamicamente, que podem gerar tensão no servidor e tornar o rastreamento desnecessário ineficiente. Como os arquivos robots.txt são tecnicamente úteis e bons para as relações com os proprietários de sites, a maioria dos operadores de rastreadores comerciais os segue.

Criado e expandido pelo público

Os arquivos robots.txt existem quase desde a criação da Internet e são uma das ferramentas essenciais que permitem que a Internet funcione. O HTML, a base das páginas da Web, foi inventado em 1991, os primeiros navegadores surgiram em 1992, e o robots.txt chegou em 1994. Isso significa que elas são anteriores até mesmo ao Google, que foi fundado em 1998. O formato não mudou muito desde então, e um arquivo da época da fundação do robots.txt ainda é válido nos dias de hoje. Após três anos de engajamento da comunidade global, ele foi incluído na proposta de padrão do IETF em 2022.

Se você tem um site, provavelmente também tem um arquivo robots.txt. Há uma comunidade vibrante e ativa em torno de robots.txt, e há milhares de ferramentas de software que ajudam a criar, testar, gerenciar ou entender arquivos robots.txt de todas as formas e tamanhos. A beleza do robots.txt é que você não precisa de ferramentas sofisticadas. É possível ler o arquivo em um navegador e, para um site que você gerencia, ajustar em um editor de texto simples.

Perspectivas para o futuro...

O formato robots.txt é flexível. Há espaço para crescimento, ele é expansível pela comunidade da Web pública e os rastreadores podem anunciar extensões quando apropriado, sem interromper o uso atual. Isso aconteceu em 2007, quando os mecanismos de pesquisa anunciaram a diretiva "sitemap". Isso também acontece regularmente, já que novos "user-agents" são aceitos por operadores de rastreamento e mecanismos de pesquisa, como aqueles usados para fins de IA.

O robots.txt é um formato perene. Novos formatos de arquivo levam alguns anos para serem finalizados com a comunidade da Internet, e as ferramentas adequadas para que eles sejam úteis ao ecossistema levam ainda mais tempo. O robots.txt é fácil, granular e expressivo, bem compreendido e aceito e funciona de forma eficiente há décadas.

Quer saber mais detalhes? Fique de olho nas próximas edições da nossa série Robots Refresher no blog da Central da Pesquisa.