Sexta-feira, 14 de março de 2025
Com o arquivo robots.txt, os proprietários de sites
têm uma maneira simples de controlar quais partes de um site são
acessíveis pelos rastreadores.
Para ajudar os proprietários de sites a expressar melhor como os mecanismos de pesquisa e os rastreadores da Web podem usar as páginas, a comunidade envolvida no desenvolvimento de padrões da Web
criou
as tags robots meta
em 1996,
poucos meses depois que as tags meta
foram propostas para HTML (e, a título de curiosidade,
antes mesmo da fundação do Google). Mais tarde,
os cabeçalhos de resposta HTTP X-Robots-Tag
foram adicionados.
Essas instruções são enviadas com um URL. Portanto, os rastreadores só podem as considerar se não for proibido rastrear o URL pelo arquivo robots.txt. Juntos, eles
formam o protocolo de exclusão de robôs (REP, na sigla em inglês).
Análise das tags robots meta
Metatags (ou elementos) são uma forma de incluir metadados legíveis por máquina.
As tags robots meta
são um "tipo" de tag meta
e se aplicam a rastreadores, incluindo mecanismos de pesquisa. Elas indicam: o conteúdo está bloqueado para indexação? Os links na página não devem ser seguidos para
rastreamento? É fácil conceder essas informações na página diretamente com as tags robots meta
.
Um protocolo de exclusão de robôs para qualquer URL
A fim de oferecer o mesmo nível de controle a conteúdo que não é HTML, o cabeçalho de resposta HTTP "X-Robots-Tag
"
foi criado. Esses
cabeçalhos HTTP
também são considerados parte do protocolo de exclusão de robôs.
O cabeçalho oferece suporte aos mesmos valores da tag robots meta
e pode ser adicionado a qualquer conteúdo veiculado on-line.
Além do HTML, o Google oferece suporte a conteúdos como PDFs, arquivos de documentos e até imagens.
A maioria desses formatos de arquivo não tem um mecanismo equivalente às tags meta
. Portanto, um cabeçalho de resposta HTTP é útil.
Introdução às tags e aos cabeçalhos robots meta
A sintaxe é simples e extensível. Geralmente, as regras são implementadas pelo desenvolvedor Web ou por um CMS (sistema de gerenciamento de conteúdo), em que os proprietários do site podem ter caixas de seleção ou menus suspensos para selecionar as preferências. Esses controles podem ser direcionados a um rastreador específico, como o Googlebot, ou, ao omitir um nome específico, podem ser direcionados a todos os rastreadores compatíveis com esses valores.
Por exemplo, as regras a seguir informam a todos os rastreadores que não usem a página associada para indexação:
- Em forma de tag HTML
meta
em uma página da Web:<meta name="robots" content="noindex">
Analisar as tags
meta
ou os cabeçalhos de resposta atuais é um pouco mais complicado e requer um exame direto do conteúdo ou dos cabeçalhos da página. É possível conferir as tags HTMLmeta
em qualquer página, seja analisando a origem da página no navegador ou usando as ferramentas para desenvolvedores do Chrome a fim de inspecionar a página.
- Na forma de um cabeçalho de resposta
HTTP:
X-Robots-Tag: noindex
É possível conferir os cabeçalhos de resposta HTTP de URLs individuais com as ferramentas para desenvolvedores do Chrome, no painel Network.
Outros exemplos do que você pode fazer:
Não mostrar um snippet para a página ou o documento. |
No cabeçalho HTTP:
X-Robots-Tag: nosnippet <meta name="robots" content="nosnippet"> |
Não indexar esta página em Esses controles especificam um rastreador de modo explícito. |
X-Robots-Tag: examplebot-news: noindex <meta name="examplebot-news" content="noindex"> |
O As diretivas mais restritivas e válidas são aplicadas. Portanto, para |
X-Robots-Tag: examplebot: nosnippet X-Robots-Tag: nofollow <meta name="examplebot" content="nosnippet"> <meta name="robots" content="nofollow"> |
Como escolher um mecanismo de protocolo de exclusão de robôs
Como escolher qual opção usar? Os controles do robots.txt e de nível da página são semelhantes, mas não são totalmente intercambiáveis. Às vezes, há uma ação específica que só é possível com um dos mecanismos. Por exemplo, se você quiser interromper o rastreamento (como para páginas de resultados da pesquisa infinitas, possível com robots.txt), se precisar de um controle para um servidor FTP (possível com robots.txt) ou se não quiser que um snippet seja mostrado para uma página (o que só é possível com elementos de página). Se você não precisar diferenciar entre bloquear o rastreamento e a indexação, uma abordagem é usar o robots.txt para controles mais amplos (a fim de bloquear grandes partes de um site) e controles no nível da página para bloquear páginas individuais.
Protocolo de exclusão de robôs: um padrão eficiente e em tempo real
Todos esses controles são extensíveis por natureza. Ao longo dos anos, proprietários de sites, operadores de rastreamento
e mecanismos de pesquisa trabalharam juntos para aprimorar a qualidade.
Historicamente, o processo começou com alguns
valores, incluindo noindex
e nofollow
. Mais tarde, outros valores como
nosnippet
, noarchive
e max-snippet:
foram adotados.
Ás vezes, os valores são descontinuados, como foi o caso de noodp
,
que usava snippets do
DMOZ / Open Directory Project
antes do fechamento do diretório.
Há
diversos valores aceitos
pelo Google para proprietários de sites e uma quantidade semelhante de outros grandes operadores de rastreamento.
Com o REP, os proprietários de sites têm controle sobre o que é rastreado e como os dados rastreados são usados nos mecanismos de pesquisa. Isso pode ser feito em um nível amplo para partes maiores de sites ou em um nível muito granular, para páginas individuais, até mesmo para imagens em páginas. Esses controles são conhecidos, estão disponíveis em todos os sistemas de gerenciamento de conteúdo comuns, são amplamente aceitos por operadores comerciais e usados em bilhões de hosts na Internet atualmente.