Como os Códigos de status HTTP e os erros de rede e de DNS afetam a Pesquisa Google
Esta página descreve como diferentes
Códigos de status HTTP,
erros de rede e de DNS afetam a Pesquisa Google. Analisamos os 20 principais códigos de status que o
Googlebot
encontrou na Web, além dos erros de rede e de DNS de mais destaque. Outros códigos mais
incomuns, como o
418 (I'm a teapot)
,
não foram analisados. Todos os problemas mencionados nesta página geram um erro ou um aviso correspondente no
Relatório de indexação de páginas
do Search Console.
Códigos de status HTTP
Os Códigos de status HTTP são gerados pelo servidor que hospeda o site quando ele responde a uma solicitação feita por um cliente, como um navegador ou um rastreador. Cada Código de status HTTP tem um significado diferente, mas geralmente o resultado da solicitação é o mesmo. Por exemplo, há vários códigos de status que sinalizam redirecionamentos, mas o resultado deles é o mesmo.
O Search Console gera mensagens de erro para códigos de status no intervalo 4xx–5xx
e para redirecionamentos com falha (3xx
). Caso o servidor tenha respondido com um código de status
2xx
, o conteúdo recebido na resposta pode ser considerado para
indexação.
A tabela a seguir mostra os códigos de status HTTP mais encontrados pelo Googlebot e uma explicação sobre como o Google lida com cada código de status.
Códigos de status HTTP | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
|
O Google considera o conteúdo para indexação. Se o conteúdo sugerir um erro, como uma página vazia ou uma mensagem de erro, o Search Console vai mostrar um erro
|
|||||||||||
|
O Googlebot acompanha até 10 saltos de redirecionamento. Se o rastreador não receber conteúdo em 10 saltos, o Search Console mostrará um erro de redirecionamento no Relatório de indexação de páginas do site. O número de saltos que o Googlebot acompanha depende do user agent. Por exemplo, o Googlebot para smartphones pode ter um valor diferente do Googlebot para imagens. No caso do robots.txt, o Googlebot acompanha pelo menos cinco saltos de redirecionamento, conforme definido pela RFC 1945 (em inglês). Depois interrompe essa ação e a trata como um Qualquer conteúdo recebido pelo Googlebot referente ao URL de redirecionamento é ignorado, e o conteúdo do URL de destino final é considerado para indexação.
|
|||||||||||
|
O pipeline de indexação do Google não considera os URLs que retornam um código de status
Qualquer conteúdo que o Googlebot tenha recebido de URLs que retornem um código de status
|
|||||||||||
|
Os erros de servidor Se o arquivo robots.txt retornar um código de status de erro de servidor por mais de 30 dias, o Google vai usar a última cópia em cache do robots.txt. Se ela estiver indisponível, o Google vai presumir que não há restrições de rastreamento.
Qualquer conteúdo que o Googlebot tenha recebido de URLs que retornem um código de status
|
soft 404
erros
Um erro soft 404
ocorre quando um URL retorna uma página informando ao usuário que ela não existe e também envia um código de status 200 (success)
. Em alguns casos, isso indica uma página sem conteúdo principal ou vazia.
Essas páginas podem ser geradas pelo servidor da Web/sistema de gerenciamento de conteúdo do seu site ou pelo navegador do usuário por diversos motivos. Exemplo:
- Um arquivo Server Side Includes (SSI) ausente
- Uma conexão corrompida com o banco de dados
- Uma página interna de resultados da pesquisa vazia
- Um arquivo JavaScript descarregado ou ausente
Para uma boa experiência do usuário, não é recomendado retornar um código de status 200 (success)
e exibir ou sugerir uma mensagem de erro ou algum tipo de erro na página. Os usuários podem pensar que
é uma página ativa, mas recebem algum tipo de erro. Essas páginas são
excluídas da Pesquisa.
Quando os algoritmos do Google detectam que a página é realmente uma página de erro com base no conteúdo,
o Search Console exibe um erro soft 404
no
Relatório de indexação de páginas do site.
Corrigir erros soft 404
Dependendo do estado da página e do resultado desejado, é possível resolver erros soft 404
de várias maneiras:
- A página e o conteúdo não estão mais disponíveis.
- A página ou o conteúdo está em outro lugar.
- A página e o conteúdo ainda existem.
Tente determinar qual a melhor solução para seus usuários.
A página e o conteúdo não estão mais disponíveis
Se você removeu a página e não há uma página de substituição no seu site com conteúdo semelhante,
retorne um código de resposta (status)
404 (not found)
ou 410 (gone)
para a página. Esses códigos de status indicam aos mecanismos de pesquisa que
a página não existe e que o conteúdo não deve ser indexado.
Se você tiver acesso aos arquivos de configuração do servidor, você pode fazer com que essas páginas sejam úteis
aos usuários personalizando-as. Uma boa página 404
personalizada ajuda o usuário a
encontrar as informações que procura, além de mostrar mais conteúdo útil que estimula
o visitante a continuar navegando no site. Veja algumas dicas para criar uma página
404
personalizada útil:
- Informe claramente aos visitantes que a página que eles procuram não foi encontrada. Use linguagem simpática e convidativa.
-
Faça com que a página
404
tenha a mesma aparência que o restante do site incluindo a navegação. - Adicione links para os artigos ou postagens mais acessadas, bem como um link para a página inicial do site.
- Pense em uma maneira de o usuário informar um link corrompido.
As páginas 404
personalizadas são criadas exclusivamente para os usuários. Como essas páginas são inúteis do ponto de vista de um mecanismo de pesquisa, confira se o servidor retorna um código de status HTTP 404
para evitar que elas sejam indexadas.
A página ou o conteúdo está em outro lugar
Caso a página tenha sido movida ou exista uma substituição evidente para ela no site, retorne um código
301 (permanent redirect)
para redirecionar o usuário. Isso não interrompe a experiência de navegação, além de ser uma ótima maneira de informar aos mecanismos de pesquisa sobre o novo local da página. Use a Ferramenta de inspeção de URL para verificar se o URL está realmente retornando o código correto.
A página e o conteúdo ainda existem
Se uma página sem problemas foi sinalizada com um erro soft 404
, é provável que ela não tenha sido carregada corretamente para o Googlebot, que faltaram recursos críticos ou que foi exibida uma mensagem de erro proeminente durante a renderização. Use a Ferramenta de inspeção de URL para examinar o conteúdo renderizado e o código HTTP retornado. Se a página renderizada estiver em branco, quase em branco ou o conteúdo tiver uma mensagem de erro, talvez ela referencie muitos recursos que não foram carregados (imagens, scripts e outros elementos não textuais), o que pode ser interpretado como um soft 404
.
Os motivos para isso incluem o bloqueio de recursos pelo robots.txt, excesso de recursos em uma página, vários erros de servidor ou arquivos de carregamento lento ou muito grandes.
Erros de rede e de DNS
Erros de rede e de DNS têm efeitos negativos e rápidos na presença de um URL na Pesquisa Google.
O Googlebot trata tempos limites de rede, a redefinição de conexão e os erros de DNS de maneira semelhante aos erros de servidor 5xx
. No caso de erros de rede, o rastreamento começa a diminuir a velocidade imediatamente, porque um erro de rede é sinal de que o servidor não consegue processar a carga de serviço. Como o Googlebot não conseguiu acessar o servidor que hospeda o site, ele também não
recebeu conteúdo do servidor. A falta de conteúdo significa que o Google não consegue indexar os
URLs rastreados, e os URLs indexados inacessíveis vão ser removidos do índice do Google
em alguns dias. O Search Console pode gerar erros para cada erro correspondente.
Depurar erros de rede
Esses erros ocorrem antes que o Google comece a rastrear um URL ou durante o processo. Como os erros podem ocorrer antes que o servidor responda e não há um código de status que possa indicar problemas, o diagnóstico deles pode ser um desafio. Para depurar erros de tempo limite e de redefinição de conexão, faça o seguinte:
- Analise as configurações e os registros de firewall. Pode haver uma regra de bloqueio excessivamente abrangente definida. Verifique se os endereços IP do Googlebot não estão bloqueados por nenhuma regra de firewall.
- Analise o tráfego de rede. Use ferramentas como tcpdump e Wireshark para capturar e analisar pacotes TCP e procurar por anomalias que apontem para um componente de rede ou módulo de servidor específico.
- Caso você não encontre nada suspeito, entre em contato com sua empresa de hospedagem.
O erro pode estar em qualquer componente do servidor que processe o tráfego de rede. Por exemplo, interfaces
de rede sobrecarregadas podem descartar pacotes que levam a tempos limite (incapacidade de estabelecer uma conexão)
e redefinir conexões (pacote RST
enviado porque uma porta foi encerrada por engano).
Depurar erros de DNS
Os erros de DNS geralmente ocorrem devido à configuração incorreta, mas eles também podem ser causados por uma regra de firewall que bloqueia as consultas DNS do Googlebot. Para depurar erros de DNS, faça o seguinte:
-
Inspecione as regras de firewall. Confira se
nenhum dos IPs do Google
está bloqueado por uma regra de firewall e se as solicitações
UDP
eTCP
são permitidas. -
Analise os registros DNS. Confira se os registros
A
eCNAME
apontam aos endereços IP e nome do host corretos, respectivamente. Exemplo:dig +nocmd example.com a +noall +answer
dig +nocmd www.example.com cname +noall +answer
-
Confira se todos os servidores de nomes estão apontando para os endereços IP corretos do
site. Exemplo:
dig +nocmd example.com ns +noall +answer
example.com. 86400 IN NS a.iana-servers.net. example.com. 86400 IN NS b.iana-servers.net.dig +nocmd @a.iana-servers.net example.com +noall +answer
example.com. 86400 IN A 93.184.216.34dig +nocmd @b.iana-servers.net example.com +noall +answer
... - Caso você tenha feito mudanças na configuração de DNS nas últimas 72 horas, talvez seja necessário aguardar para que as alterações se propaguem pela rede DNS global. Para acelerar o processo, você pode limpar o cache do DNS público do Google.
- Caso você execute seu próprio servidor DNS, confirme se ele está íntegro e se não está sobrecarregado.