Visão geral dos rastreadores e coletores do Google (user agents)
O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário. "Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para detectar e verificar sites automaticamente. Os coletores atuam como um programa como o wget, que geralmente faz uma única solicitação em nome de um usuário. Os clientes do Google se enquadram em três categorias:
Rastreadores comuns | Os rastreadores comuns usados para os produtos do Google (como o Googlebot). Eles sempre respeitam as regras do robots.txt para rastreamentos automáticos. |
Rastreadores de casos especiais |
Os rastreadores de casos especiais são semelhantes aos rastreadores comuns, mas são usados por produtos específicos
quando há um acordo entre o site rastreado e o produto do Google sobre o processo
de rastreamento. Por exemplo, AdsBot ignora o user agent global (* ) do robots.txt
com a permissão do publisher de anúncios.
|
Coletores acionados pelo usuário | Os coletores acionados pelo usuário fazem parte de ferramentas e funções do produto em que o usuário final aciona uma busca. Por exemplo, o Verificador de sites do Google age conforme a solicitação do usuário. |
Propriedades técnicas dos rastreadores e coletores do Google
Os rastreadores e coletores do Google foram desenvolvidos para funcionar simultaneamente em milhares de máquinas a fim de melhorar o desempenho e a escala de acordo com o crescimento da Web. Para otimizar o uso da largura de banda, esses clientes são distribuídos em muitos data centers ao redor do mundo, para que fiquem localizados perto dos sites que podem acessar. Por isso, seus registros talvez mostrem visitas de vários endereços IP. As saídas do Google são principalmente de endereços IP nos Estados Unidos. Caso o Googlebot detecte que um site está bloqueando solicitações dos Estados Unidos, ele poderá tentar rastrear endereços IP localizados em outros países.
Protocolos de transferência compatíveis
Os rastreadores e coletores do Google oferecem suporte a HTTP/1.1 e
HTTP/2. Os rastreadores vão
usar a versão do protocolo que oferece o melhor desempenho de rastreamento e podem alternar entre protocolos
entre as sessões de rastreamento, dependendo das estatísticas de rastreamento anteriores. A versão padrão do protocolo
usada pelos rastreadores do Google é HTTP/1.1. O rastreamento por HTTP/2 pode economizar recursos de computação
(por exemplo, CPU, RAM) do seu site e do Googlebot. No entanto, não há benefícios específicos do produto do Google para o site (por exemplo, não há aumento de classificação na Pesquisa Google).
Para desativar o rastreamento por HTTP/2, instrua o servidor que hospeda o site para responder com um código de status HTTP 421
quando o Google tentar fazer o rastreamento
dessa maneira. Se isso não for viável,
envie uma mensagem para a equipe de rastreamento.
No entanto, essa solução é temporária.
A infraestrutura do rastreador do Google também oferece suporte ao rastreamento por FTP (conforme definido pela RFC959 e suas atualizações) e FTPS (conforme definido pela RFC4217 e suas atualizações). No entanto, o rastreamento por esses protocolos é raro.
Codificações de conteúdo com suporte
Os rastreadores e os coletores do Google oferecem suporte às seguintes codificações de conteúdo (compactações):
gzip,
deflate e
Brotli (br). As
codificações de conteúdo aceitas por cada user agent do Google são anunciadas no
cabeçalho Accept-Encoding
de cada solicitação feita. Por exemplo,
Accept-Encoding: gzip, deflate, br
.
Taxa de rastreamento e carga do host
Nosso objetivo é rastrear o maior número possível de páginas no seu site a cada visita, sem sobrecarregar o servidor. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento. Enviar o código de resposta HTTP inadequado para os rastreadores do Google pode afetar a aparência do seu site nos produtos do Google.
Cache HTTP
A infraestrutura de rastreamento do Google
oferece suporte ao armazenamento em cache HTTP heurístico conforme definido pelo
padrão de armazenamento em cache HTTP,
especificamente pelo cabeçalho de solicitação ETag
e If-None-Match
e pelo cabeçalho de solicitação Last-Modified
e If-Modified-Since
.
Se os campos de cabeçalho de resposta ETag
e Last-Modified
estiverem presentes na
resposta HTTP, os rastreadores do Google vão usar o valor ETag
como
solicitado pelo padrão HTTP.
Para os rastreadores do Google especificamente, recomendamos o uso de
ETag
em vez do cabeçalho Last-Modified
para indicar a preferência de armazenamento em cache, já que
ETag
não tem problemas de formatação de data.
Outras diretivas de armazenamento em cache HTTP não são compatíveis.
Os rastreadores e coletores individuais do Google podem ou não usar o armazenamento em cache, dependendo das necessidades
do produto a que estão associados. Por exemplo, Googlebot
oferece suporte ao armazenamento em cache ao
refazer o rastreamento de URLs para a Pesquisa Google, e Storebot-Google
só oferece suporte ao armazenamento em cache em
determinadas condições.
Para implementar o armazenamento em cache HTTP no seu site, entre em contato com o provedor de hospedagem ou do sistema de gerenciamento de conteúdo.
ETag
e If-None-Match
A infraestrutura de rastreamento do Google oferece suporte a ETag
e If-None-Match
, conforme
definido pelo
padrão de armazenamento em cache HTTP.
Saiba mais sobre o
cabeçalho de resposta ETag
e a contraparte do cabeçalho da solicitação,
If-None-Match
.
Last-Modified e If-Modified-Since
A infraestrutura de rastreamento do Google oferece suporte a Last-Modified
e
If-Modified-Since
, conforme definido pelo
padrão de armazenamento em cache HTTP,
com as seguintes ressalvas:
-
A data no cabeçalho
Last-Modified
precisa estar formatada de acordo com o padrão HTTP. Para evitar problemas de análise, recomendamos usar o seguinte formato de data: "Dia da semana, fuso horário DD Mon YYYY HH:MM:SS". Por exemplo, "Fri, 4 Sep 1998 19:15:56 GMT". -
Embora não seja obrigatório, considere também definir o
campo
max-age
do cabeçalho de respostaCache-Control
para ajudar os rastreadores a determinar quando rastrear novamente o URL específico. Defina o valor do campomax-age
como o número esperado de segundos em que o conteúdo não vai mudar. Por exemplo,Cache-Control: max-age=94043
.
Saiba mais sobre o
cabeçalho de resposta Last-Modified
e a contraparte do cabeçalho da solicitação, If-Modified-Since
.
Verificação dos rastreadores e coletores do Google
Os rastreadores do Google se identificam de três maneiras:
-
O cabeçalho da solicitação HTTP
user-agent
. - O endereço IP de origem da solicitação.
- O nome do host DNS reverso do IP de origem.
Saiba como usar esses detalhes para verificar os rastreadores e coletores do Google.