Visão geral dos rastreadores e coletores do Google (user agents)

O Google usa rastreadores e coletores para executar ações para os produtos, de forma automática ou mediante solicitação do usuário.

"Rastreador" (às vezes também chamado de "robô" ou "indexador") é um termo genérico para qualquer programa usado para descobrir e examinar sites automaticamente seguindo links entre páginas da Web. O principal rastreador do Google usado para a Pesquisa Google se chama Googlebot.

Coletores, como um navegador, são ferramentas que solicitam um único URL quando instruídas por um usuário.

As tabelas a seguir mostram os rastreadores e coletores do Google usados por vários produtos e serviços, como eles podem aparecer nos registros de referenciadores e como os especificar no robots.txt. As listas não são completas e abrangem apenas os solicitantes mais comuns que podem aparecer nos arquivos de registro.

  • O token do user agent é incluído na linha User-agent: do robots.txt ao criar regras de rastreamento do site para corresponder a um tipo de rastreador. Alguns rastreadores têm mais de um token, como indicado na tabela. Para que uma regra seja aplicada, basta que um token corresponda ao rastreador. Esta lista não está completa, mas inclui muitos dos rastreadores que podem acessar seu site.
  • A string completa do user agent é uma descrição completa do rastreador e aparece na solicitação HTTP e nos registros da Web.

Rastreadores comuns

Os rastreadores comuns do Google são usados para encontrar informações para criar índices de pesquisa do Google, realizar outros rastreamentos específicos de produtos e realizar análises. Eles sempre obedecem às regras do robots.txt e geralmente rastreiam a partir dos intervalos de IP publicados no objeto googlebot.json.

Rastreadores comuns
Token do user agent Googlebot
String completa do user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Token do user agent Googlebot
Strings completas do user agent
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Raramente:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Usado para rastrear bytes de imagens para o Imagens do Google e produtos que dependem de imagens.

Tokens do user agent
  • Googlebot-Image
  • Googlebot
String completa do user agent Googlebot-Image/1.0

O Googlebot News usa o Googlebot para rastrear notícias, mas respeita o token histórico do user agent Googlebot-News.

Tokens do user agent
  • Googlebot-News
  • Googlebot
String completa do user agent O user agent Googlebot-News usa as várias strings de user agent do Googlebot.

Usado para rastrear bytes de vídeo para o Google e produtos que dependem de vídeos.

Tokens do user agent
  • Googlebot-Video
  • Googlebot
String completa do user agent Googlebot-Video/1.0

O Google StoreBot rastreia determinados tipos de página, por exemplo, páginas de detalhes do produto, do carrinho e de finalização da compra.

Token do user agent Storebot-Google
Strings completas do user agent
  • Agente de computador:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • Agente de dispositivo móvel:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

O Google-InspectionTool é o rastreador usado pelas ferramentas de teste da Pesquisa, como o teste de pesquisa aprimorada e a inspeção de URL no Search Console. Com exceção do user agent e do token do user agent, ele imita o Googlebot.

Tokens do user agent
  • Google-InspectionTool
  • Googlebot
String completa do user agent
  • Dispositivo móvel
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Computador
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

O GoogleOther é o rastreador genérico que pode ser usado por várias equipes de produto para buscar conteúdo acessível publicamente nos sites. Ele pode ser usado em rastreamentos únicos para pesquisa interna e desenvolvimento, por exemplo.

Token do user agent GoogleOther
String completa do user agent
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image é a versão do GoogleOther otimizada para buscar URLs de imagens acessíveis publicamente.

Tokens do user agent
  • GoogleOther-Image
  • GoogleOther
String completa do user agent GoogleOther-Image/1.0

GoogleOther-Video é a versão do GoogleOther otimizada para buscar URLs de vídeo acessíveis publicamente.

Tokens do user agent
  • GoogleOther-Video
  • GoogleOther
String completa do user agent GoogleOther-Video/1.0

O Google-Extended é um token de produto independente que os editores da Web podem usar para gerenciar se os sites deles ajudam a melhorar as APIs generativas dos apps Gemini e da Vertex AI, incluindo as gerações futuras de modelos usados por esses produtos. O Google-Extended não afeta a inclusão ou classificação de um site na Pesquisa Google.

Token do user agent Google-Extended
String completa do user agent O Google-Extended não tem uma string do user agent de solicitação HTTP separada. O rastreamento é feito com strings dos user agents atuais do Google. O token do user agent do robots.txt é usado em uma capacidade de controle.

Rastreadores de casos especiais

Os rastreadores de casos especiais são usados por produtos específicos quando há um acordo entre o site rastreado e o produto sobre o processo de rastreamento. Por exemplo, AdsBot ignora o user agent global (*) do robots.txt com a permissão do editor de anúncios. Os rastreadores de casos especiais podem ignorar as regras do robots.txt. Por isso, eles operam em um intervalo de IP diferente dos rastreadores comuns. Os intervalos de IP são publicados no objeto special-crawlers.json.

Rastreadores de casos especiais

Usado pelas APIs do Google para enviar mensagens de notificações push. Ignora o user agent global (*) no robots.txt.

Token do user agent APIs-Google
String completa do user agent APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Verifica a qualidade dos anúncios nas páginas da Web em dispositivos móveis. Ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google-Mobile
String completa do user agent Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Confere a qualidade dos anúncios nas páginas da Web em computadores. Ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google
String completa do user agent AdsBot-Google (+http://www.google.com/adsbot.html)

O rastreador do Google AdSense acessa seu site para identificar seu conteúdo com a finalidade de fornecer anúncios relevantes. Ignora o user agent global (*) no robots.txt.

Token do user agent Mediapartners-Google
String completa do user agent Mediapartners-Google

O rastreador Mobile AdSense visita seu site para determinar seu conteúdo a fim de fornecer anúncios relevantes. Ignora o user agent global (*) no robots.txt.

Token do user agent Mediapartners-Google
String completa do user agent (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

O user agent do Google-Safety processa o rastreamento específico de abuso, como a descoberta de malware em links postados publicamente nos Serviços do Google. Esse user agent ignora as regras do robots.txt.

String completa do user agent Google-Safety

Coletores acionados pelo usuário

Coletores acionados pelo usuário são iniciados por usuários para executar uma função de busca específica do produto. Por exemplo, o Verificador de sites do Google atua de acordo com a solicitação de um usuário, ou um site hospedado no Google Cloud (GCP) tem um recurso que permite que os usuários do site recuperem um feed RSS externo. Como a busca foi solicitada por um usuário, esses coletores geralmente ignoram as regras do robots.txt. Os intervalos de IP que os coletores acionados pelo usuário usam são publicados nos objetos user-triggered-fetchers.json e user-triggered-fetchers-google.json .

Coletores acionados pelo usuário

O Feedfetcher é usado para rastrear feeds RSS ou Atom para o Google Podcasts, o Google Notícias e o PubSubHubbub.

Token do user agent FeedFetcher-Google
String completa do user agent FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Central do Editor do Google

Busca e processa os feeds que os editores forneceram explicitamente pela Central do Editor do Google para serem usados nas páginas de destino do Google Notícias.

String completa do user agent GoogleProducer; (+http://goo.gl/7y4SX)

Mediante solicitação do usuário, o Google Read Aloud busca e lê páginas da Web usando a conversão de texto em voz (TTS).

Strings completas do user agent

Agentes atuais:

  • Agente de computador:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • Agente de dispositivo móvel:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

Agente antigo (descontinuado):

google-speakr

O Verificador de sites do Google faz buscas quando os usuários solicitam tokens de verificação do Search Console.

String completa do user agent Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Uma observação sobre Chrome/W.X.Y.Z nos user agents

Quando a string Chrome/W.X.Y.Z for exibida nas strings do user agent na tabela, W.X.Y.Z serve como um marcador de posição que representa a versão do navegador Chrome usada por ele, como 41.0.2272.96. O número da versão aumentará com o tempo para corresponder à versão mais recente do Chromium usada pelo Googlebot.

Se você pesquisar seus registros ou filtrar seu servidor por user agent com esse padrão, use caracteres curingas para o número da versão em vez de especificar um número exato.

User agents no robots.txt

Nos casos em que diversos user agents são reconhecidos no arquivo robots.txt, o Google seguirá o mais específico. Se você quer que o Google seja capaz de rastrear suas páginas, não será necessário um arquivo robots.txt. Se você quer bloquear ou permitir que todos os rastreadores do Google acessem seu conteúdo, será possível fazer isso especificando o Googlebot como user agent. Por exemplo, se você quiser que todas as suas páginas apareçam na Pesquisa Google e que os anúncios do Google AdSense apareçam nelas, um arquivo robots.txt não será necessário. De modo semelhante, se você quiser bloquear algumas páginas do Google de uma só vez, o bloqueio do user agent Googlebot também bloqueará todos os outros user agents do Google.

É possível ter um controle maior com ações mais específicas. Por exemplo, talvez você queira que todas as suas páginas apareçam na Pesquisa Google, mas que as imagens em seu diretório pessoal não sejam rastreadas. Nesse caso, use o robots.txt para proibir que o user agent Googlebot-Image rastreie os arquivos no seu diretório pessoal (enquanto permite que o Googlebot rastreie todos os arquivos) desta maneira:

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Para usar outro exemplo, digamos que você queira anúncios em todas as suas páginas, mas que essas páginas não apareçam na Pesquisa Google. Aqui você bloquearia o Googlebot, mas permitiria o user agent Mediapartners-Google, desta maneira:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Como controlar a velocidade de rastreamento

Cada rastreador do Google acessa sites para uma finalidade específica e em frequências diferentes. O Google usa algoritmos para determinar a taxa de rastreamento ideal para cada site. Se um rastreador do Google rastrear seu site com muita frequência, você poderá reduzir a taxa de rastreamento.

Rastreadores do Google desativados

Os rastreadores do Google a seguir não estão mais em uso e são mencionados apenas para referência histórica.

Rastreadores do Google desativados

Duplex na Web

Era compatível com o serviço Duplex na Web.

Token do user agent DuplexWeb-Google
String completa do user agent Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Conferia a presença do cabeçalho no-transform sempre que um usuário clicava na página na Pesquisa sob as condições apropriadas. O user agent do Web Light era usado somente para solicitações explícitas de navegação de visitantes humanos. Portanto, ele ignorava as regras do robots.txt, que são usadas para bloquear solicitações de rastreamento automatizadas.

Token do user agent googleweblight
String completa do user agent Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Confere a qualidade dos anúncios nas páginas da Web em iPhones. Ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google-Mobile
String completa do user agent Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Confere a qualidade dos anúncios nas páginas dos apps Android. Obedece às regras de robôs AdsBot-Google, mas ignora o user agent global (*) no robots.txt.

Token do user agent AdsBot-Google-Mobile-Apps
String completa do user agent AdsBot-Google-Mobile-Apps
Tokens do user agent
  • Googlebot-Image
  • Googlebot
String completa do user agent Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon