Visão geral dos rastreadores e coletores do Google (user agents)

O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário. "Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para detectar e verificar sites automaticamente. Os coletores atuam como um programa como o wget, que geralmente faz uma única solicitação em nome de um usuário. Os clientes do Google se enquadram em três categorias:

Rastreadores comuns Os rastreadores comuns usados para os produtos do Google (como o Googlebot). Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos.
Rastreadores de casos especiais Os rastreadores de casos especiais são semelhantes aos rastreadores comuns, mas são usados por produtos específicos quando há um acordo entre o site rastreado e o produto do Google sobre o processo de rastreamento. Por exemplo, AdsBot ignora o user agent global (*) do robots.txt com a permissão do publisher de anúncios.
Coletores acionados pelo usuário Os coletores acionados pelo usuário fazem parte de ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário.

Propriedades técnicas dos rastreadores e coletores do Google

Os rastreadores e coletores do Google foram desenvolvidos para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Para otimizar o uso da largura de banda, esses clientes são distribuídos em muitos data centers ao redor do mundo, para que fiquem localizados perto dos sites que podem acessar. Por isso, seus registros talvez mostrem visitas de vários endereços IP. As saídas do Google são principalmente de endereços IP nos Estados Unidos. Caso o Googlebot detecte que um site está bloqueando solicitações dos Estados Unidos, ele poderá tentar rastrear endereços IP localizados em outros países.

Protocolos de transferência compatíveis

Os rastreadores e coletores do Google oferecem suporte a HTTP/1.1 e HTTP/2. Os rastreadores vão usar a versão do protocolo que oferece o melhor desempenho de rastreamento e podem alternar entre protocolos entre as sessões de rastreamento, dependendo das estatísticas de rastreamento anteriores. A versão padrão do protocolo usada pelos rastreadores do Google é HTTP/1.1. O rastreamento por HTTP/2 pode economizar recursos de computação (por exemplo, CPU, RAM) do seu site e do Googlebot. No entanto, não há benefícios específicos do produto do Google para o site (por exemplo, não há aumento de classificação na Pesquisa Google). Para desativar o rastreamento por HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421 quando o Google tentar fazer o rastreamento dessa maneira. Se isso não for viável, envie uma mensagem para a equipe de rastreamento. No entanto, essa solução é temporária.

A infraestrutura do rastreador do Google também oferece suporte ao rastreamento por FTP (conforme definido pela RFC959 e suas atualizações) e FTPS (conforme definido pela RFC4217 e suas atualizações). No entanto, o rastreamento por esses protocolos é raro.

Codificações de conteúdo com suporte

Os rastreadores e os coletores do Google oferecem suporte às seguintes codificações de conteúdo (compactações): gzip, deflate e Brotli (br). As codificações de conteúdo aceitas por cada user agent do Google são anunciadas no cabeçalho Accept-Encoding de cada solicitação feita. Por exemplo, Accept-Encoding: gzip, deflate, br.

Taxa de rastreamento e carga do host

Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar o servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento. Enviar o código de resposta HTTP inadequado para os rastreadores do Google pode afetar a aparência do seu site nos produtos do Google.

Cache HTTP

A infraestrutura de rastreamento do Google oferece suporte ao armazenamento em cache HTTP heurístico conforme definido pelo padrão de armazenamento em cache HTTP, especificamente pelo cabeçalho de solicitação ETag e If-None-Match e pelo cabeçalho de solicitação Last-Modified e If-Modified-Since.

Se os campos de cabeçalho de resposta ETag e Last-Modified estiverem presentes na resposta HTTP, os rastreadores do Google vão usar o valor ETag como solicitado pelo padrão HTTP. Para os rastreadores do Google especificamente, recomendamos o uso de ETag em vez do cabeçalho Last-Modified para indicar a preferência de armazenamento em cache, já que ETag não tem problemas de formatação de data.

Outras diretivas de armazenamento em cache HTTP não são compatíveis.

Os rastreadores e coletores individuais do Google podem ou não usar o armazenamento em cache, dependendo das necessidades do produto a que estão associados. Por exemplo, Googlebot oferece suporte ao armazenamento em cache ao refazer o rastreamento de URLs para a Pesquisa Google, e Storebot-Google só oferece suporte ao armazenamento em cache em determinadas condições.

Para implementar o armazenamento em cache HTTP no seu site, entre em contato com o provedor de hospedagem ou do sistema de gerenciamento de conteúdo.

ETag e If-None-Match

A infraestrutura de rastreamento do Google oferece suporte a ETag e If-None-Match, conforme definido pelo padrão de armazenamento em cache HTTP. Saiba mais sobre o cabeçalho de resposta ETag e a contraparte do cabeçalho da solicitação, If-None-Match.

Last-Modified e If-Modified-Since

A infraestrutura de rastreamento do Google oferece suporte a Last-Modified e If-Modified-Since, conforme definido pelo padrão de armazenamento em cache HTTP, com as seguintes ressalvas:

  • A data no cabeçalho Last-Modified precisa estar formatada de acordo com o padrão HTTP. Para evitar problemas de análise, recomendamos usar o seguinte formato de data: "Dia da semana, fuso horário DD Mon YYYY HH:MM:SS". Por exemplo, "Fri, 4 Sep 1998 19:15:56 GMT".
  • Embora não seja obrigatório, considere também definir o campo max-age do cabeçalho de resposta Cache-Control para ajudar os rastreadores a determinar quando rastrear novamente o URL específico. Defina o valor do campo max-age como o número esperado de segundos em que o conteúdo não vai mudar. Por exemplo, Cache-Control: max-age=94043.

Saiba mais sobre o cabeçalho de resposta Last-Modified e a contraparte do cabeçalho da solicitação, If-Modified-Since.

Verificação dos rastreadores e coletores do Google

Os rastreadores do Google se identificam de três maneiras:

  1. O cabeçalho da solicitação HTTP user-agent.
  2. O endereço IP de origem da solicitação.
  3. O nome do host DNS reverso do IP de origem.

Saiba como usar esses detalhes para verificar os rastreadores e coletores do Google.