Terça-feira, 3 de dezembro de 2024
Talvez você já tenha ouvido que a Pesquisa Google precisa fazer algum trabalho antes que uma página da Web possa aparecer nos resultados. Uma dessas etapas é chamada de "rastreamento". O rastreamento da Pesquisa Google é feito pelo Googlebot, um programa executado nos servidores do Google que recupera um URL e lida com coisas como erros de rede, redirecionamentos e outras pequenas complicações que podem ser encontradas ao navegar pela Web. Mas há alguns detalhes que não são mencionados com frequência. Todas as semanas deste mês, vamos analisar alguns desses detalhes, já que eles podem ter um efeito significativo na maneira como os sites são rastreados.
Mas o que é exatamente o rastreamento?
O rastreamento é o processo de encontrar páginas novas e acessar páginas atualizadas da Web, além de fazer o download delas. Em resumo, o Googlebot recebe um URL, faz uma solicitação HTTP para o servidor que o hospeda e lida com a resposta desse servidor, possivelmente seguindo redirecionamentos, processando erros e transmitindo o conteúdo da página para o sistema de indexação do Google.
Mas as páginas da Web modernas não são apenas HTML. E os outros recursos que compõem uma página? Como o rastreamento desses recursos afeta a "cota de rastreamento"? Esses recursos podem ser armazenados em cache no Google? E há uma diferença entre os URLs que não foram rastreados antes e os que já foram indexados? Neste post, vamos responder a essas perguntas e muito mais.
Googlebot e rastreamento de recursos da página
Além do HTML, os sites modernos usam uma combinação de tecnologias diferentes, como JavaScript e CSS, para oferecer aos usuários experiências vibrantes e funcionalidades úteis. Ao acessar essas páginas com um navegador, ele primeiro faz o download do URL pai, que hospeda os dados necessários para começar a criar a página para o usuário, ou seja, o HTML da página. Esses dados iniciais podem conter referências a recursos como JavaScript e CSS, mas também imagens e vídeos que o navegador vai fazer download novamente para construir a página final que será apresentada ao usuário.
O Google faz exatamente a mesma coisa, mas de maneira um pouco diferente:
- O Googlebot faz download dos dados iniciais do URL pai, que é o HTML da página.
- Ele transmite os dados buscados para o serviço de renderização da Web (WRS, na sigla em inglês).
- Usando o Googlebot, o WRS faz download dos recursos referenciados nos dados originais.
- O WRS constrói a página usando todos os recursos baixados, como faria o navegador de um usuário.
Em comparação com um navegador, o tempo entre cada etapa pode ser significativamente maior devido a restrições de programação, como a carga percebida do servidor que hospeda os recursos necessários para renderizar uma página. E é aqui que a cota de rastreamento entra na conversa.
O rastreamento dos recursos necessários para renderizar uma página vai consumir parte da cota de rastreamento do nome do host que hospeda o recurso. Para melhorar isso, o WRS tenta armazenar em cache todos os recursos (JavaScript e CSS) referenciados nas páginas renderizadas. O time to live (TTL) do cache do WRS não é afetado pelas diretivas de armazenamento em cache HTTP. Em vez disso, o WRS armazena em cache tudo por até 30 dias, o que ajuda a preservar a cota de rastreamento do site para outras tarefas de rastreamento.
Do ponto de vista dos proprietários de sites, gerenciar como e quais recursos são rastreados pode influenciar a cota de rastreamento do site. Recomendamos as seguintes medidas:
- Use o menor número possível de recursos para oferecer uma ótima experiência aos usuários. Quanto menos recursos forem necessários para renderizar uma página, menos cota de rastreamento será gasto durante a renderização.
- Use parâmetros que impedem o cache com cautela: se os URLs dos recursos mudarem, o Google poderá precisar fazer o rastreamento novamente, mesmo que o conteúdo não tenha mudado. Isso, é claro, vai consumir a cota de rastreamento.
- Hospede recursos em um nome do host diferente do site principal, por exemplo, usando uma CDN ou hospedando os recursos em um subdomínio diferente. Isso vai transferir as preocupações com a cota de rastreamento para o host que está veiculando os recursos.
Todos esses pontos também se aplicam aos recursos de mídia. Se o Googlebot (ou mais especificamente,
Googlebot-Image
e Googlebot-Video
, respectivamente) os buscar, ele
vai consumir a cota de rastreamento do site.
É tentador adicionar robots.txt à lista, mas, do ponto de vista de renderização, impedir o rastreamento de recursos geralmente causa problemas. Se o WRS não conseguir buscar um recurso crítico para renderização, a Pesquisa Google poderá ter problemas ao extrair o conteúdo da página e permitir que ela seja classificada na Pesquisa.
O que é o rastreamento do Googlebot?
A melhor fonte para analisar quais recursos o Google está rastreando são os registros de acessos brutos do site, que têm uma entrada para cada URL solicitado por navegadores e rastreadores. Para identificar os rastreadores do Google no registro de acesso, publicamos nossos intervalos de IP na documentação para desenvolvedores.
O segundo melhor recurso é, claro, o relatório de estatísticas de rastreamento do Search Console, que divide cada tipo de recurso por rastreador:
Por fim, se você gosta de rastreamento e renderização e quer conversar sobre isso com outras pessoas, a comunidade da Central da Pesquisa é o lugar certo, mas você também pode nos encontrar no LinkedIn.
Atualizações
- Atualização de 6 de dezembro de 2024: foi observado um impacto no desempenho ao veicular recursos de uma origem diferente.