Guia detalhado sobre como a Pesquisa Google funciona

A Pesquisa Google é um mecanismo de pesquisa totalmente automatizado que usa softwares conhecidos como rastreadores da Web, que exploram a Web regularmente para encontrar páginas a serem adicionadas ao nosso índice. Na realidade, a maioria das páginas listadas em nossos resultados de pesquisa não é enviada manualmente para inclusão. Elas são encontradas e adicionadas de maneira automática quando nossos rastreadores exploram a Web. Este documento explica as etapas de como a Pesquisa funciona no contexto do seu site. Esse conhecimento básico pode ajudar você a corrigir problemas de rastreamento, indexar suas páginas e saber como otimizar a exibição do seu site na Pesquisa Google.

Algumas observações antes de começar

Antes de falarmos sobre como a Pesquisa funciona, é importante observar que o Google não aceita pagamentos para rastrear um site com mais frequência nem para atribuir a ele uma classificação mais alta. Se alguém disser a você algo diferente, essa informação estará errada.

O Google não garante que vai rastrear, indexar ou exibir a página, mesmo que ela siga os Fundamentos da Pesquisa Google.

A Pesquisa Google funciona em três estágios, e nem todas as páginas passam por todos eles:

  1. Rastreamento: o Google faz o download de textos, imagens e vídeos de páginas encontradas na Internet com programas automatizados chamados rastreadores.
  2. Indexação: o Google analisa os arquivos de texto, imagens e vídeo na página e armazena as informações no índice do Google, que é um grande banco de dados.
  3. Exibição dos resultados da pesquisa: quando um usuário faz uma pesquisa, o Google retorna informações relevantes para a consulta dele.

Rastreamento

A primeira etapa é descobrir quais páginas existem na Web. Não há um registro central de todas elas. Por isso, o Google precisa pesquisar páginas novas e atualizadas para adicionar à própria lista de páginas conhecidas. Esse processo é chamado de "descoberta de URL". Algumas páginas são conhecidas porque já foram visitadas pelo Google. Outras são detectadas quando o Google segue um link de uma página conhecida para uma nova. Por exemplo, quando uma página principal, como a de categoria, tem links para uma nova postagem do blog. Além disso, algumas são detectadas quando você envia uma lista de páginas (um sitemap) para o Google rastrear.

Depois que o Google descobre o URL de uma página, ele pode visitar (ou "rastrear") a página para verificar o conteúdo dela. Nós usamos um grande conjunto de computadores para rastrear bilhões de páginas na Web. O programa que faz a busca é chamado de Googlebot (também conhecido como rastreador, robô, bot ou indexador). O Googlebot usa um processo de algoritmos para determinar quais sites rastrear, com que frequência e quantas páginas precisam ser buscadas em cada site. Os rastreadores do Google também são programados para não rastrear o site muito rapidamente e evitar sobrecargas. Esse mecanismo se baseia nas respostas do site (por exemplo, erros HTTP 500 significam "lento") e configurações no Search Console

No entanto, o Googlebot não rastreia todas as páginas descobertas. Algumas páginas podem ser não permitidas para rastreamento pelo proprietário, já outras podem pedir login.

Durante o rastreamento, o Google renderiza a página e executa qualquer JavaScript encontrado usando uma versão recente do Chrome, semelhante à forma como o navegador renderiza as páginas que você acessa. A renderização é importante porque os sites geralmente dependem do JavaScript para exibir conteúdo na página. Sem a renderização, o Google talvez não detecte esse conteúdo.

O rastreamento depende da capacidade dos rastreadores do Google de acessar o site. Veja alguns problemas comuns com o acesso do Googlebot aos sites:

Indexação

Depois que uma página é rastreada, o Google tenta identificar o conteúdo dela. Esse estágio é conhecido como indexação e inclui o processamento e a análise do conteúdo textual e das principais tags e atributos do conteúdo, como elementos <title> e atributos alternativos, imagens, vídeos e muito mais.

Durante o processo de indexação, o Google determina se uma página é canônica ou uma cópia de outra na Internet. A canônica é a que talvez seja exibida nos resultados da pesquisa. Para selecionar a página canônica, primeiro agrupamos as páginas encontradas na Internet que têm conteúdo semelhante, processo que se chama "clustering". Em seguida, selecionamos a que melhor representa o grupo. As outras páginas do grupo são versões alternativas que podem ser exibidas em contextos diferentes. Por exemplo, se o usuário estiver pesquisando em um dispositivo móvel ou procurando uma página muito específica do cluster.

O Google também coleta indicadores sobre a página canônica e o conteúdo dela que podem ser usados na próxima etapa, em que exibimos a página nos resultados da pesquisa. Alguns indicadores incluem o idioma da página, o país em que o conteúdo está localizado, a usabilidade da página, entre outros.

As informações coletadas sobre a página canônica e o cluster dela podem ser armazenadas no índice do Google, um grande banco de dados hospedado em milhares de computadores. A indexação não é garantida. Nem todas as páginas processadas pelo Google são indexadas.

A indexação também depende do conteúdo e dos metadados da página. Estes são alguns problemas comuns de indexação:

Exibição dos resultados da pesquisa

Quando um usuário faz uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retornam os resultados com maior qualidade e mais relevantes para a consulta dele. A relevância é determinada por centenas de fatores, que podem incluir informações como a localização, o idioma e o dispositivo do usuário (computador ou smartphone). Por exemplo, em uma pesquisa por "oficinas de conserto de bicicletas", os resultados seriam diferentes para um usuário de Paris e outro de Hong Kong.

O Search Console pode informar que uma página está indexada, mas você não a vê nos resultados da pesquisa. Confira os possíveis motivos:

Embora este guia explique como a Pesquisa funciona, estamos sempre trabalhando para melhorar nossos algoritmos. Siga o blog da Central da Pesquisa Google para acompanhar essas mudanças.