Canais de comunicação sobre incidentes
A equipe de suporte da Plataforma Google Maps oferece diferentes canais de comunicação sobre incidentes.
A lista de incidentes e falhas temporárias da Plataforma Google Maps no Issue Tracker mostra todos os incidentes conhecidos. Você pode ver facilmente os incidentes, seguir o progresso deles e adicionar comentários para ajudar nossas equipes a investigar o problema ao se inscrever na conversa relacionada ao erro.
O grupo de notificações da Plataforma Google Maps é a primeira fonte para identificar falhas temporárias generalizadas. Todos os clientes que participarem do grupo receberão uma notificação por e-mail quando uma falha temporária for detectada e todas as atualizações até a resolução do problema.
Quando um problema é detectado e informado no Issue Tracker, um banner também é exibido na página de suporte da Plataforma Google Maps (no Console do Cloud). O banner identifica o produto afetado e inclui um link para o Issue Tracker.
Ciclo de vida de um incidente
A Plataforma Google Maps obedece ao framework de gerenciamento de incidentes do Google Cloud Platform.
Quando ocorre uma falha temporária ou degradação do serviço, as equipes de engenharia de produto e de suporte da Plataforma Google Maps trabalham juntas para resolver o incidente e comunicá-lo a você.
Detecção
O Google usa monitoramento interno e de caixa preta para detectar incidentes. Para mais informações, consulte o capítulo 6 do manual Engenharia de confiabilidade do site.
Se você detectar um incidente que ainda não foi informado no Issue Tracker, acesse a página de suporte da Plataforma Google Maps (no Console do Cloud) e crie uma nova consulta ao suporte.
Resposta inicial
Quando um incidente é detectado, a equipe de suporte entra em contato com você. Em geral, a notificação inicial de um incidente é esparsa e, com frequência, apenas menciona o nome do produto em questão. Isso ocorre porque priorizamos notificações rápidas em vez de detalhes, que serão fornecidos nas próximas atualizações.
Para fornecer a quantidade apropriada de informações, são usados diferentes canais de comunicação, dependendo do escopo e da gravidade de um problema.
Investigação
As equipes de engenharia de produto são responsáveis por investigar a causa raiz dos incidentes. O gerenciamento de incidentes geralmente é feito pelos engenheiros de confiabilidade do site, mas também por engenheiros de software ou outros profissionais, dependendo da situação e do produto. Para mais informações, consulte o capítulo 12 do manual Engenharia de confiabilidade do site.
Mitigação/correção
O Google só considera um problema corrigido quando tem certeza de que as mudanças feitas o eliminaram. Por exemplo, a correção reverte uma alteração que acionou um incidente.
Durante um incidente, as equipes de suporte e produto tentarão mitigar o problema. A mitigação ocorre quando o impacto ou o escopo de um problema for reduzido, por exemplo, ao fornecer temporariamente mais recursos a um serviço com sobrecarga.
Se nenhuma mitigação for possível, a equipe de suporte tentará encontrar e informar soluções alternativas. Elas são as etapas que você executa para solucionar o problema, apesar do incidente. Um exemplo de solução alternativa é usar configurações diferentes para uma chamada de API a fim de evitar um caminho de código problemático.
Acompanhamento
Enquanto um incidente está em andamento, a equipe de suporte fornece atualizações regulares. Normalmente, elas contêm os seguintes detalhes:
- Informações sobre o incidente, como mensagens de erro, quais recursos foram afetados e o grau de difusão
- O progresso da mitigação, incluindo quaisquer soluções alternativas
- Cronogramas de comunicação adaptados ao incidente
- Alterações no status, por exemplo, quando um incidente é corrigido
Post mortem
Todos os incidentes resultam em uma análise interna de post mortem para entender completamente o incidente e identificar quais melhorias de confiabilidade o Google pode fazer. Essas melhorias são acompanhadas e implementadas. Para mais informações sobre post mortems no Google, consulte o capítulo 15 do manual Engenharia de confiabilidade do site.
Relatório de incidentes
Quando os incidentes têm um impacto muito amplo e grave, o Google fornece relatórios que descrevem os sintomas, o impacto, a causa raiz, a correção e a prevenção futura desses incidentes. Assim como nos post mortems, prestamos atenção especial às etapas adotadas para aprender com o problema e melhorar a confiabilidade. O objetivo do Google ao escrever e liberar post mortems é ser transparente e demonstrar nosso compromisso em criar serviços estáveis para nossos clientes.
Perguntas frequentes
Quero receber uma notificação no caso de uma falha temporária. O que devo fazer?
Participe do grupo de notificações da Plataforma Google Maps para receber avisos sobre problemas atuais e acompanhar o andamento de incidentes em tempo real. Com esse grupo, você também ficará por dentro das novidades sobre produtos e a plataforma.
Onde posso verificar se uma falha temporária foi registrada?
A equipe da Plataforma Google Maps oferece vários recursos para você receber informações sobre uma falha temporária. Escolha aquele que funciona melhor para você.
- Incidentes no Issue Tracker: lista de referência de todos os incidentes conhecidos. É possível ver os incidentes em andamento, acompanhar o progresso e se inscrever nas conversas, além de adicionar comentários para ajudar nossas equipes a investigar a situação. Você encontra o link para o Issue Tracker público na documentação de suporte da Plataforma Google Maps.
- Grupo de notificações da Plataforma Google Maps: grupo do Google em que todas as falhas temporárias generalizadas são informadas. Todos os clientes que participarem do grupo receberão uma notificação por e-mail quando uma interrupção for detectada e atualizações até a resolução do problema.
- Página de suporte da Plataforma Google Maps (no Console do Cloud): quando um problema é detectado e informado no Issue Tracker, a página de suporte exibe um banner ativo com um aviso sobre o problema e um link para o Issue Tracker.
E se eu tiver um problema, mas ele não estiver listado no grupo de notificações nem no Issue Tracker?
O problema pode estar acontecendo só nos seus projetos ou estar afetando alguns poucos clientes. Se nenhum incidente for informado, acesse a página de suporte da Plataforma Google Maps (no Console do Cloud) e crie uma nova consulta ao suporte.
Qual é a diferença entre um "incidente" e uma "falha temporária"?
Embora esses termos sejam frequentemente usados como sinônimos, nossas comunicações externas usam "incidente" para se referir a qualquer período de serviço com capacidade reduzida e "falha temporária", aos problemas mais graves em que um produto não funciona em grande escala.