Segunda-feira, 12 de agosto de 2019
Na maioria das vezes, nosso mecanismo de pesquisa funciona como deveria. Nossas equipes trabalham muito para evitar problemas técnicos que podem afetar os usuários que pesquisam na Web ou os webmasters que têm sites indexados e veiculados pelo Google. De maneira semelhante, os sistemas subjacentes que usamos para alimentar o mecanismo de pesquisa também funcionam como planejado na maior parte do tempo. Quando pequenas interrupções acontecem, elas só são visíveis às nossas equipes, que trabalham para garantir que todos os produtos estejam funcionando corretamente. No entanto, como em todos os sistemas complexos, falhas maiores podem acontecer de vez em quando e afetar tanto os usuários quanto os criadores dos sites.
Nos últimos meses, tivemos um problema nos sistemas de indexação, o que gerou um efeito cascata em outras partes da nossa infraestrutura. Embora tenhamos trabalhado o mais rápido possível para solucionar a questão, lamentamos essa interrupção de funcionamento, já que o nosso objetivo é fornecer produtos de alta qualidade aos usuários e ao ecossistema da Web continuamente.
Desde então, fizemos uma análise detalhada da situação. Durante esse processo, aprendemos algumas lições que gostaríamos de compartilhar. O objetivo desta postagem do blog é explicar detalhadamente o que aconteceu, esclarecer como planejamos nos comunicar melhor caso algo parecido aconteça no futuro e lembrar aos proprietários dos sites que existem canais disponíveis para entrar em contato com nossa equipe.
Afinal, o que aconteceu alguns meses atrás?
Em abril, tivemos vários problemas de indexação. O índice da Pesquisa é um banco de dados com centenas de bilhões de páginas da Web que foram rastreadas para responder a algumas das consultas dos nossos usuários. Quando um usuário insere uma consulta no mecanismo de pesquisa do Google, nossos algoritmos de classificação organizam essas páginas no nosso índice da Pesquisa para encontrar os resultados mais úteis e relevantes em uma fração de segundo. Veja aqui mais informações sobre essa situação.
1. O problema de indexação
Para começar, perdemos temporariamente parte do índice da Pesquisa.
Espere! O quê? Como assim "perderam parte do índice"? Isso é possível?
Basicamente, para acelerar a velocidade do serviço de exibição dos resultados da pesquisa para os usuários, a consulta "viaja" até nosso data center mais próximo. Essa central de dados oferece suporte ao produto Pesquisa Google, onde a página de resultados do mecanismo de pesquisa é gerada. Por isso, quando a composição do índice é mudada (com a adição e remoção de páginas, uso de documentos mesclados ou outros tipos de modificação de dados), essas atualizações precisam ser refletidas em todos os data centers. Dessa forma, os usuários do mundo todo podem ter resultados consistentes a partir da versão mais recente do índice.
Manter o índice unificado em todos esses data centers não é uma tarefa simples. Para serviços grandes voltados ao usuário, podemos implantar atualizações em um data center e expandir essa ação até que ela seja feita em todos os outros. Para partes importantes da infraestrutura, podemos estender um lançamento por vários dias. Nesse período, os data centers são atualizados progressivamente em diferentes regiões (fonte).
Então, enquanto preparávamos algumas mudanças planejadas para o índice da Pesquisa, na sexta-feira, dia 5 de abril, partes do sistema de implantação pararam de funcionar. Mais especificamente: durante a atualização do índice de alguns dos nossos data centers, um pequeno número de documentos acabou sendo descartado acidentalmente. Por isso "perdemos parte do índice".
Felizmente, nossos engenheiros de plantão perceberam o bug rapidamente, e comunicamos o problema nas mídias sociais na mesma hora. Inclusive, agradecemos a todos que nos enviaram notificações sobre essa questão naquele fim de semana. Como resultado, começamos a reverter o índice da Pesquisa para seu estado estável anterior em todos os data centers poucas horas após a descoberta do problema. Por medida de segurança, mantemos backups dos nossos índices justamente no caso de eventos como esse.
No domingo, 7 de abril, avisamos que estávamos cientes do problema e que o funcionamento do índice começava a ser normalizado. À medida que os data centers voltavam a estabilizar o índice de maneira progressiva, continuamos postando atualizações no Twitter (nos dias 8 e 9 de abril), até termos certeza de que todas essas centrais tinham retomado totalmente a versão completa do índice, em 11 de abril.
2. O problema do Search Console
O Search Console é o conjunto de ferramentas e relatórios que pode ser usado por qualquer webmaster para acessar dados sobre o desempenho do próprio site na Pesquisa. Por exemplo, o recurso mostra quantas impressões e cliques um site recebe diariamente nos resultados da pesquisa orgânica ou exibe informações sobre quais páginas de um site foram incluídas e excluídas do índice da Pesquisa.
Devido aos problemas no índice da Pesquisa descritos acima, o Search Console também começou a mostrar inconsistências. Isso aconteceu porque alguns dos dados exibidos no Search Console são originados no próprio índice da Pesquisa:
- O Relatório de cobertura do índice depende da consistência do índice da Pesquisa em todos os data centers.
- Quando armazenamos uma página no índice da Pesquisa, podemos adicionar à entrada informações importantes sobre essa página, como a presença de uma marcação de pesquisa aprimorada, por exemplo. Por isso, um problema no índice da Pesquisa pode afetar os relatórios de pesquisa aprimorada no Search Console.
Basicamente, muitos relatórios individuais do Search Console usam informações de um banco de dados dedicado. Esse banco de dados é parcialmente construído com informações originadas no índice da Pesquisa. Como tivemos que voltar a usar uma versão anterior do índice da Pesquisa, também foi preciso pausar a atualização do banco de dados do Search Console. Isso gerou dados estáveis para alguns relatórios e resultados imprecisos em outros, como na Ferramenta de inspeção de URL.
Como o problema do índice da Pesquisa levou vários dias para ser revertido (veja a explicação acima), atrasamos o trabalho para corrigir o banco de dados do Search Console em alguns dias e só começamos essa correção após a resolução dos erros de indexação. No dia 15 de abril, comunicamos por um tweet que o Search Console apresentava problemas e que estávamos trabalhando para os corrigir. As correções foram concluídas em 28 de abril, quando os relatórios começaram a coletar dados novos outra vez. Veja o gráfico acima. No dia 30 de abril, comunicamos no Twitter que a questão havia sido resolvida (tweet).
3. Outros problemas não relacionados ao principal bug de indexação
A Pesquisa Google depende de vários sistemas que funcionam juntos. Embora alguns deles estejam estreitamente conectados entre si, às vezes, diferentes partes do sistema são afetadas por problemas não relacionados ao mesmo tempo.
Nesse caso, por exemplo, na mesma época do principal bug de indexação explicado acima, também tivemos breves problemas ao coletar novos conteúdos no Google Notícias. Além disso, durante a renderização, alguns URLs começaram a redirecionar o Googlebot para outras páginas não relacionadas. Esses problemas não tinham relação com o bug de indexação e foram rapidamente resolvidos (tweet 1 e tweet 2).
Nossa comunicação e como pretendemos melhorar nossas estratégias
Além de nos comunicarmos nas mídias sociais (como destacado acima) durante essas semanas, também fornecemos mais detalhes aos webmasters em outros dois canais: no Search Console e na Central de Ajuda do Search Console.
Na Central de Ajuda do Search Console
Atualizamos nossa página de ajuda Anomalias de dados no Search Console após identificar o problema. Essa página é usada para divulgar informações sobre interrupções de dados no serviço do Search Console quando esse problema afeta um grande número de proprietários de sites.
No Search Console
Como nem todas as pessoas usam as mídias sociais ou a página da Central de Ajuda externa, também adicionamos informações nos relatórios do Search Console para notificar os usuários de que os dados talvez não fossem precisos. Veja a imagem abaixo. Adicionamos o aviso após resolver os bugs. A opção "Ver mais detalhes" direciona os usuários à página "Anomalias de dados" na Central de Ajuda.
Comunicações futuras
Quando ocorrem problemas no Google, desenvolvemos uma cultura de prevenção. Por isso, criamos um documento para analisar o bug e tentar evitar que ele se repita. Todo o processo é descrito com mais detalhes no site de engenharia de confiabilidade do site.
Após a ocorrência dos problemas de indexação em abril, definimos métodos para nos comunicar melhor com os webmasters em caso de falhas significativas no sistema. Veja nossas principais decisões a seguir:
- Descobrir maneiras de compartilhar informações sobre bugs generalizados mais rapidamente no próprio Search Console e disponibilizar essas informações como a principal referência para os webmasters conferirem caso haja suspeita de interrupções.
- Fazer postagens atualizadas na página de anomalias de dados do Search Console, quando relevante, caso o problema persista a longo prazo.
- Postar tweets o mais rápido possível sobre esses problemas para que os webmasters fiquem seguros de que estamos cientes da questão e trabalhando para a resolver.
Com esses compromissos, vamos nos comunicar com mais transparência com os webmasters a respeito de possíveis situações parecidas no futuro.
Resoluções na prática: o estudo de caso de "novos URLs não indexados"
Em 22 de maio, testamos nossa nova estratégia de comunicação ao enfrentar outro problema. Saiba o que aconteceu: durante o processamento de determinados URLs, nosso sistema de gerenciamento de conteúdo duplicado ficou sem memória após um upgrade planejado da infraestrutura. Isso fez com que o processamento de todos os URLs de entrada fosse interrompido.
Veja uma linha do tempo das estratégias de comunicação, seguindo os três pontos destacados acima:
-
Identificamos o problema em 22 de maio, por volta das 5h30, horário da Califórnia.
Postamos um tweet sobre a evolução do problema em 22 de maio, por volta das 6h40, horário da Califórnia.
Postamos um tweet sobre a resolução do problema em 22 de maio, por volta das 22h, horário da Califórnia. - Avaliamos a necessidade de uma atualização da página "Anomalias de dados" na Central de Ajuda, mas decidimos não incluir essa informação, já que não esperávamos impactos de longo prazo para a maioria dos dados dos webmasters no Search Console.
- A confusão gerada por esse problema confirmou nossas conclusões anteriores de que precisamos criar no próprio Search Console uma maneira de sinalizar com mais clareza possíveis interrupções nos nossos sistemas que podem afetar os webmasters. Essa solução vai levar mais tempo para ser implementada. Vamos enviar novas comunicações sobre esse assunto no futuro para apresentar as novidades.
Na semana passada, também tivemos outro problema de indexação. Como em 22 de maio, enviamos tweets para informar às pessoas que havia um problema, que ele estava sendo corrigido e quando ele foi resolvido.
Como depurar bugs e entrar em contato com nossa equipe
Com esta postagem, esperamos esclarecer que nossos sistemas são complexos e estão suscetíveis a problemas. Além disso, queremos ajudar você a entender como nos comunicamos sobre esses assuntos. No entanto, embora esta postagem se concentre em uma violação generalizada dos nossos sistemas, é importante ter em mente que a maioria dos problemas de indexação de páginas é causada pela configuração de um site individual, o que pode dificultar o funcionamento da Pesquisa Google. Nesses casos, todos os webmasters podem depurar problemas usando o Search Console e a Central de Ajuda. Se, depois disso, você ainda tiver a impressão de que o problema não é gerado pelo seu site ou não conseguir resolvê-lo, entre em contato com nossa equipe e comunidade. É sempre muito importante receber feedback dos nossos usuários. Para sinalizar um problema, siga estas etapas:
- Confira nossa Comunidade de webmasters para ver se outros webmasters já destacaram o problema afetando seu site.
- Entre em contato pessoalmente. Vai ser um prazer conversar com você durante nossos eventos.
- Entre em contato usando nossos produtos. A ferramenta de feedback do Search Console é muito útil para nossas equipes.
- Use o Twitter e o YouTube.