Terça-feira, 2 de julho de 2019
Ontem anunciamos que estamos
usando o código aberto do analisador de robots.txt em produção do Google.
Foi um momento incrível que abriu as portas para possíveis projetos de código aberto da
Pesquisa. Seu feedback é importante, e estamos coletando perguntas de
desenvolvedores e
webmasters. Falaremos nesta postagem
sobre uma pergunta que se destacou:
por que o código não inclui um gerenciador para outras regras, como atraso de rastreamento?
O rascunho da Internet que publicamos ontem oferece
uma arquitetura extensível para regras que não fazem parte do padrão. Isso significa que um
rastreador pode oferecer compatibilidade com uma linha própria, como
unicorns: allowed
. Para demonstrar isso em um analisador, incluímos uma linha muito comum,
sitemap, no nosso analisador de robots.txt de código aberto.
Ao usar o código aberto em nossa biblioteca de analisadores, analisamos o uso de regras do robots.txt. Especificamente,
priorizamos as regras incompatíveis com o rascunho da Internet, como
crawl-delay
, nofollow
e
noindex
. Como essas regras nunca foram documentadas pelo Google,
é natural que o uso delas em relação ao Googlebot seja muito baixo. Analisando ainda mais, vimos o uso
delas ser contradito por outras regras em todos os arquivos robots.txt, exceto 0,001%.
Esses erros prejudicam a presença dos sites nos resultados da pesquisa do Google de maneiras não pretendidas
pelos webmasters.
Para manter um ecossistema saudável e se preparar para futuras versões de código
aberto, desativamos todo o código que processa regras não compatíveis e não publicadas (como
noindex
) em 1º de setembro de 2019. Para os desenvolvedores que usavam a
regra de indexação noindex
no arquivo
robots.txt
, que controla o rastreamento, existem várias
alternativas:
-
noindex
nasmeta
tags robots: compatível com os cabeçalhos de resposta HTTP e com HTML, a regranoindex
é a maneira mais eficaz de remover URLs do índice quando o rastreamento for permitido. -
Códigos de status HTTP
404
e410
: os códigos de status indicam que a página não existe, o que elimina esses URLs do índice do Google após o rastreamento e o processamento. - Proteção de senha: a menos que seja usada uma marcação para indicar conteúdo com paywall ou de assinatura, ocultar uma página protegida por login geralmente a remove do índice do Google.
-
Disallow
emrobots.txt
: os mecanismos de pesquisa só podem indexar páginas conhecidas. Bloquear a página geralmente impede que o conteúdo dela seja indexado. O mecanismo de pesquisa também pode indexar URLs com base em links de outras páginas, sem ver o conteúdo, mas nosso objetivo é tornar essas páginas menos visíveis no futuro. - Ferramenta de remoção de URL do Search Console: a ferramenta é um método rápido e fácil para remover um URL temporariamente dos resultados da pesquisa do Google.
Para mais orientações sobre como remover informações dos resultados da pesquisa do Google, acesse nossa Central de Ajuda. Se você tiver alguma dúvida, entre em contato no Twitter e na Comunidade para webmasters, tanto off-line quanto on-line.