Googlebot

Googlebot é o nome genérico dos dois tipos de rastreadores da Web usados pela Pesquisa Google:

Você pode identificar o subtipo do Googlebot observando o cabeçalho da solicitação do HTTP user-agent na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token do user agent) no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot Smartphone nem o Googlebot Desktop usando o robots.txt.

Na maioria dos sites, a Pesquisa Google indexa principalmente a versão para dispositivos móveis do conteúdo. Dessa forma, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores.

Como o Googlebot acessa seu site

Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento.

O Googlebot pode rastrear os primeiros 15 MB de um arquivo HTML ou um arquivo de texto compatível. Cada recurso referenciado no HTML, como CSS e JavaScript, é buscado separadamente, e cada busca é restrita ao mesmo limite de tamanho de arquivo. Depois disso, ele interrompe o rastreamento e envia apenas os primeiros 15 MB do arquivo para que seja considerada a indexação. O limite de tamanho do arquivo é aplicado considerando os dados descompactados. Outros rastreadores do Google como o Googlebot Video e o Googlebot Image podem ter limites diferentes.

Ao rastrear endereços IP nos EUA, o fuso horário do Googlebot é o Horário do Pacífico.

Outras propriedades técnicas do Googlebot são descritas na visão geral dos rastreadores do Google.

Como impedir o acesso do Googlebot ao seu site

O Googlebot descobre novos URLs para rastrear principalmente a partir de links incorporados em páginas rastreadas anteriormente. É quase impossível manter um site em segredo não publicando links para ele. Quando alguém segue um link do seu site "secreto" para outro site, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência.

Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. É importante lembrar que há uma diferença entre rastreamento e indexação. Impedir que o Googlebot faça o rastreamento de uma página não impede que o URL dela apareça nos resultados da pesquisa:

O bloqueio do Googlebot afeta a Pesquisa Google (incluindo o Discover e todos os recursos da Pesquisa Google), além de outros produtos, como Imagens do Google, Vídeo do Google e Google Notícias.

Verificação do Googlebot

Antes de decidir bloquear o Googlebot, esteja ciente de que o cabeçalho da solicitação HTTP user-agent usado pelo Googlebot muitas vezes é falsificado por outros rastreadores. É importante confirmar se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente vem do Googlebot é usar uma busca DNS reversa no IP de origem da solicitação ou comparar o IP de origem com os intervalos de IP do Googlebot.