Sexta-feira, 17 de fevereiro de 2023
Nos últimos meses, notamos um aumento no número de proprietários de sites e em algumas redes de fornecimento de conteúdo
(CDNs) que tentam usar 404
e outros erros de cliente 4xx
(mas não
429
) para tentar reduzir a taxa de rastreamento do Googlebot.
A versão curta desta postagem do blog é: não faça isso. Temos uma documentação sobre como reduzir a taxa de rastreamento do Googlebot. Leia o artigo e aprenda a gerenciar de forma eficaz a taxa de rastreamento do Googlebot.
De volta ao início: erros 4xx
são para erros de cliente
Os erros 4xx
que os servidores retornam aos clientes são um sinal do servidor
de que a solicitação do cliente estava errada em algum sentido. A maioria dos erros nesta categoria é bastante benigno:
erros "não encontrado", "proibido", "sou um bule" (sim, isso existe). Eles não sugerem nada
de errado com o próprio servidor.
A única exceção é 429
, que significa "muitas solicitações". Esse erro é um sinal
claro para qualquer robô bem comportado, incluindo nosso querido Googlebot, de que precisa diminuir a velocidade
porque está sobrecarregando o servidor.
Por que os erros 4xx
são ruins para a limitação de taxa do Googlebot (exceto 429
)
Os erros do cliente são exatamente isso: erros do cliente. Geralmente, eles não sugerem um erro com o servidor:
não é que está sobrecarregado e não é que encontrou um erro crítico e não consegue responder
à solicitação. Esses erros só indicam que a solicitação do cliente foi ruim de alguma forma. Não há uma
maneira possível de se igualar, por exemplo, um erro 404
ao servidor estar sobrecarregado.
Imagine se esse for o caso: você recebe um fluxo de erros 404
do seu amigo que acidentalmente
vincula para as páginas erradas no seu site e, assim, o Googlebot desacelera o rastreamento. Isso
seria muito ruim. O mesmo vale para 403
, 410
e 418
.
Novamente, a grande exceção é o código de status 429
, que se traduz em "excesso de
solicitações".
O que a limitação de taxa com o erro 4xx
faz para o Googlebot
Todos os códigos de status HTTP 4xx
(exceto 429
) vão fazer com que seu conteúdo
seja removido da Pesquisa Google. O pior é que, se você também exibir seu arquivo robots.txt com um
código de status HTTP 4xx
, ele será tratado como se não existisse. Se você tinha uma regra
que proibia o rastreamento de roupas sujas, agora o Googlebot também sabe disso. Não é bom
para nenhuma das partes envolvidas.
Como reduzir a taxa de rastreamento do Googlebot da maneira certa
Temos uma documentação abrangente sobre como reduzir a taxa de rastreamento do Googlebot e como o Googlebot e a indexação da Pesquisa processam os diferentes códigos de status HTTP. Confira. Resumindo, você deve realizar uma destas ações:
- Usar o Search Console para reduzir temporariamente a taxa de rastreamento.
-
Retornar um código de status HTTP
500
,503
ou429
ao Googlebot quando o rastreamento for rápido demais.
Se precisar de mais dicas ou esclarecimentos, entre em contato pelo Twitter ou poste nos nossos Fóruns de Ajuda.