Googlebot
Googlebot é o nome genérico dos dois tipos de rastreadores da Web usados pela Pesquisa Google:
- Googlebot Smartphone: um rastreador para dispositivos móveis que simula um usuário em um dispositivo móvel.
- Googlebot para computadores: um rastreador para computadores que simula um usuário no computador.
Você pode identificar o subtipo do Googlebot observando o
cabeçalho da solicitação do HTTP user-agent
na solicitação. No entanto, os dois tipos de rastreador obedecem ao mesmo token de produto (token do user agent)
no robots.txt. Por isso, não é possível segmentar seletivamente o Googlebot Smartphone nem o Googlebot
Desktop usando o robots.txt.
Na maioria dos sites, a Pesquisa Google indexa principalmente a versão para dispositivos móveis do conteúdo. Dessa forma, a maioria das solicitações de rastreamento do Googlebot será feita usando o rastreador para esse tipo de dispositivo e uma minoria com o rastreador para computadores.
Como o Googlebot acessa seu site
Para a maioria dos sites, o acesso do Googlebot não deve ocorrer, em média, mais de uma vez no intervalo de poucos segundos. No entanto, devido a atrasos, é possível que a taxa pareça ser um pouco mais elevada em intervalos curtos. Caso seu site esteja com problemas ao acompanhar as solicitações de rastreamento do Google, reduza a taxa de rastreamento.
O Googlebot pode rastrear os primeiros 15 MB de um arquivo HTML ou um arquivo de texto compatível. Cada recurso referenciado no HTML, como CSS e JavaScript, é buscado separadamente, e cada busca é restrita ao mesmo limite de tamanho de arquivo. Depois disso, ele interrompe o rastreamento e envia apenas os primeiros 15 MB do arquivo para que seja considerada a indexação. O limite de tamanho do arquivo é aplicado considerando os dados descompactados. Outros rastreadores do Google como o Googlebot Video e o Googlebot Image podem ter limites diferentes.
Ao rastrear endereços IP nos EUA, o fuso horário do Googlebot é o Horário do Pacífico.
Outras propriedades técnicas do Googlebot são descritas na visão geral dos rastreadores do Google.
Como impedir o acesso do Googlebot ao seu site
O Googlebot descobre novos URLs para rastrear principalmente a partir de links incorporados em páginas rastreadas anteriormente. É quase impossível manter um site em segredo não publicando links para ele. Quando alguém segue um link do seu site "secreto" para outro site, o URL "secreto" pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência.
Caso você queira impedir que o Googlebot rastreie conteúdo no seu site, temos várias opções. É importante lembrar que há uma diferença entre rastreamento e indexação. Impedir que o Googlebot faça o rastreamento de uma página não impede que o URL dela apareça nos resultados da pesquisa:
- Quer impedir que o Googlebot rastreie uma página? Use um arquivo robots.txt.
-
Não quer que o Google indexe uma página? Use
noindex
. - Quer impedir que uma página seja acessada tanto por rastreadores quanto por usuários? Use outro método, como a proteção por senha.
O bloqueio do Googlebot afeta a Pesquisa Google (incluindo o Discover e todos os recursos da Pesquisa Google), além de outros produtos, como Imagens do Google, Vídeo do Google e Google Notícias.
Verificação do Googlebot
Antes de decidir bloquear o Googlebot, esteja ciente de que o cabeçalho da solicitação HTTP user-agent
usado pelo Googlebot muitas vezes é falsificado por outros rastreadores. É importante confirmar
se uma solicitação com problemas tem origem no Google. A melhor maneira de verificar se a solicitação realmente
vem do Googlebot é
usar uma busca DNS reversa
no IP de origem da solicitação ou comparar o IP de origem com os
intervalos de IP do Googlebot.