Robots Refresher: granularidade no nível da página

Sexta-feira, 14 de março de 2025

Com o arquivo robots.txt, os proprietários de sites têm uma maneira simples de controlar quais partes de um site são acessíveis pelos rastreadores. Para ajudar os proprietários de sites a expressar melhor como os mecanismos de pesquisa e os rastreadores da Web podem usar as páginas, a comunidade envolvida no desenvolvimento de padrões da Web criou as tags robots meta em 1996, poucos meses depois que as tags meta foram propostas para HTML (e, a título de curiosidade, antes mesmo da fundação do Google). Mais tarde, os cabeçalhos de resposta HTTP X-Robots-Tag foram adicionados. Essas instruções são enviadas com um URL. Portanto, os rastreadores só podem as considerar se não for proibido rastrear o URL pelo arquivo robots.txt. Juntos, eles formam o protocolo de exclusão de robôs (REP, na sigla em inglês).

Análise das tags robots meta

Metatags (ou elementos) são uma forma de incluir metadados legíveis por máquina. As tags robots meta são um "tipo" de tag meta e se aplicam a rastreadores, incluindo mecanismos de pesquisa. Elas indicam: o conteúdo está bloqueado para indexação? Os links na página não devem ser seguidos para rastreamento? É fácil conceder essas informações na página diretamente com as tags robots meta.

Um protocolo de exclusão de robôs para qualquer URL

A fim de oferecer o mesmo nível de controle a conteúdo que não é HTML, o cabeçalho de resposta HTTP "X-Robots-Tag" foi criado. Esses cabeçalhos HTTP também são considerados parte do protocolo de exclusão de robôs. O cabeçalho oferece suporte aos mesmos valores da tag robots meta e pode ser adicionado a qualquer conteúdo veiculado on-line. Além do HTML, o Google oferece suporte a conteúdos como PDFs, arquivos de documentos e até imagens. A maioria desses formatos de arquivo não tem um mecanismo equivalente às tags meta. Portanto, um cabeçalho de resposta HTTP é útil.

Introdução às tags e aos cabeçalhos robots meta

A sintaxe é simples e extensível. Geralmente, as regras são implementadas pelo desenvolvedor Web ou por um CMS (sistema de gerenciamento de conteúdo), em que os proprietários do site podem ter caixas de seleção ou menus suspensos para selecionar as preferências. Esses controles podem ser direcionados a um rastreador específico, como o Googlebot, ou, ao omitir um nome específico, podem ser direcionados a todos os rastreadores compatíveis com esses valores.

Por exemplo, as regras a seguir informam a todos os rastreadores que não usem a página associada para indexação:

  • Em forma de tag HTML meta em uma página da Web:
    <meta name="robots" content="noindex">

    Analisar as tags meta ou os cabeçalhos de resposta atuais é um pouco mais complicado e requer um exame direto do conteúdo ou dos cabeçalhos da página. É possível conferir as tags HTML meta em qualquer página, seja analisando a origem da página no navegador ou usando as ferramentas para desenvolvedores do Chrome a fim de inspecionar a página.

  • Na forma de um cabeçalho de resposta HTTP:
    X-Robots-Tag: noindex

    É possível conferir os cabeçalhos de resposta HTTP de URLs individuais com as ferramentas para desenvolvedores do Chrome, no painel Network.

Outros exemplos do que você pode fazer:

Não mostrar um snippet para a página ou o documento.

No cabeçalho HTTP:
X-Robots-Tag: nosnippet
ou em HTML:
<meta name="robots" content="nosnippet">

Não indexar esta página em ExampleBot-News sem especificar uma preferência para outras.

Esses controles especificam um rastreador de modo explícito.

X-Robots-Tag: examplebot-news: noindex
ou
<meta name="examplebot-news" content="noindex">

O ExampleBot não deve mostrar um snippet, e todos os rastreadores não devem seguir os links nesta página.

As diretivas mais restritivas e válidas são aplicadas. Portanto, para ExampleBot, a diretiva será combinada como "nosnippet, nofollow".

X-Robots-Tag: examplebot: nosnippet
X-Robots-Tag: nofollow
ou
<meta name="examplebot" content="nosnippet">
<meta name="robots" content="nofollow">

Como escolher um mecanismo de protocolo de exclusão de robôs

Como escolher qual opção usar? Os controles do robots.txt e de nível da página são semelhantes, mas não são totalmente intercambiáveis. Às vezes, há uma ação específica que só é possível com um dos mecanismos. Por exemplo, se você quiser interromper o rastreamento (como para páginas de resultados da pesquisa infinitas, possível com robots.txt), se precisar de um controle para um servidor FTP (possível com robots.txt) ou se não quiser que um snippet seja mostrado para uma página (o que só é possível com elementos de página). Se você não precisar diferenciar entre bloquear o rastreamento e a indexação, uma abordagem é usar o robots.txt para controles mais amplos (a fim de bloquear grandes partes de um site) e controles no nível da página para bloquear páginas individuais.

Protocolo de exclusão de robôs: um padrão eficiente e em tempo real

Todos esses controles são extensíveis por natureza. Ao longo dos anos, proprietários de sites, operadores de rastreamento e mecanismos de pesquisa trabalharam juntos para aprimorar a qualidade. Historicamente, o processo começou com alguns valores, incluindo noindex e nofollow. Mais tarde, outros valores como nosnippet, noarchive e max-snippet: foram adotados. Ás vezes, os valores são descontinuados, como foi o caso de noodp, que usava snippets do DMOZ / Open Directory Project antes do fechamento do diretório. Há diversos valores aceitos pelo Google para proprietários de sites e uma quantidade semelhante de outros grandes operadores de rastreamento.

Com o REP, os proprietários de sites têm controle sobre o que é rastreado e como os dados rastreados são usados nos mecanismos de pesquisa. Isso pode ser feito em um nível amplo para partes maiores de sites ou em um nível muito granular, para páginas individuais, até mesmo para imagens em páginas. Esses controles são conhecidos, estão disponíveis em todos os sistemas de gerenciamento de conteúdo comuns, são amplamente aceitos por operadores comerciais e usados em bilhões de hosts na Internet atualmente.


Confira o restante da série Robots Refresher: