Gestione degli incidenti di Google Maps Platform

Ciclo di vita di un incidente

Google Maps Platform è conforme al framework di gestione degli incidenti di Google Cloud Platform.

Quando si verifica un'interruzione del servizio o un deterioramento del servizio, il team tecnico del prodotto e il team di assistenza di Google Maps Platform collaborano per risolvere l'incidente e comunicartelo.

lifecycle

Rilevamento

Google utilizza il monitoraggio interno e black box per rilevare incidenti e attivare avvisi per i nostri tecnici per le indagini. Per ulteriori informazioni, consulta il Capitolo 6 del libro Site Reliability Engineering.

Se rilevi un incidente che non è stato ancora segnalato in Issue Tracker, vai alla pagina Crea una richiesta di assistenza di Google Maps Platform (in Google Cloud Console) e crea una nuova richiesta di assistenza.

Risposta iniziale

Quando Google rileva un incidente, il team dell'assistenza si occupa della comunicazione con te. Le notifiche iniziali di un incidente sono spesso sparse, menzionando spesso solo il prodotto in questione insieme ai sintomi principali. Questo perché diamo la priorità alla notifica rapida rispetto ai dettagli. Ulteriori informazioni saranno disponibili nei prossimi aggiornamenti.

risposta

Canali di comunicazione degli incidenti

Per fornire la quantità di informazioni appropriata, il team di assistenza di Google Maps Platform offre vari canali di comunicazione degli incidenti, a seconda dell'ambito e della gravità di un problema:

La Dashboard dello stato pubblico di Maps è la prima risorsa da verificare quando rilevi un problema che ti riguarda. La dashboard mostra gli incidenti che interessano molti clienti, quindi se vedi un incidente elencato probabilmente è correlato al tuo problema. Per indicare la gravità, la dashboard dello stato contrassegna gli incidenti come un'interruzione del servizio, un'interruzione del servizio o informazioni.

Il Gruppo Notifiche di Google Maps Platform è un gruppo Google pubblico in cui vengono segnalate tutte le interruzioni generali, insieme ad altri aggiornamenti tecnici sulle API di Google Maps Platform. Tutti i membri del gruppo riceveranno una notifica via email quando viene rilevata inizialmente un'interruzione con aggiornamenti successivi fino a quando il problema non viene risolto.

La scheda di stato di Maps Platform è un messaggio informativo sempre visibile nella sezione Assistenza di Maps in Cloud Console, che mostra lo stato corrente delle API e dei servizi di Maps Platform. Quando si verifica un incidente attivo, verrà visualizzato un messaggio che identifica il prodotto interessato e include un link alla dashboard dello stato pubblico di Maps, in cui puoi vedere gli incidenti attivi.

interruzione

Lo strumento Issue Tracker contiene un elenco di riferimento di tutti gli incidenti noti. Puoi visualizzare gli incidenti aperti, seguirne l'avanzamento iscrivendoti e aggiungere commenti per aiutare i nostri team a esaminare il problema. Potete trovare il link allo strumento Issue Tracker anche nella documentazione di assistenza di Google Maps Platform.

Le richieste di assistenza vengono utilizzate se il problema può essere isolato ai tuoi progetti o ha un impatto su un numero limitato di clienti. Se non è stato dichiarato alcun incidente, ma continui a riscontrare un problema, vai alla pagina Crea una richiesta di assistenza di Google Maps Platform (in Cloud Console) e crea una nuova richiesta di assistenza.

Indagine

I team di tecnici dei prodotti sono responsabili delle indagini sulla causa principale degli incidenti. La gestione degli incidenti viene spesso eseguita da Site Reliability Engineer, ma potrebbe essere eseguita da software engineer o da altre persone, a seconda della situazione e del prodotto. Per ulteriori informazioni, consulta il Capitolo 12 del Site Reliability Engineering Book.

Mitigazione/correzione

Un problema è considerato risolto solo quando sono state apportate modifiche che Google ritiene sicura che terminerà l'impatto a tempo indeterminato. Ad esempio, la correzione potrebbe eseguire il rollback di una modifica che ha attivato un incidente.

Mentre è in corso un incidente, i team di assistenza e di prodotto tenteranno di attenuare il problema. La mitigazione si verifica quando l'impatto o l'ambito di un problema può essere ridotto, ad esempio fornendo temporaneamente risorse aggiuntive a un servizio che soffre di sovraccarico.

Se non è stata trovata alcuna mitigazione, quando possibile, il team di assistenza individuerà e comunicherà soluzioni. Le soluzioni alternative sono passaggi che puoi intraprendere per risolvere l'esigenza sottostante nonostante l'incidente. Una soluzione alternativa potrebbe essere quella di utilizzare impostazioni diverse per una chiamata API per evitare un percorso di codice problematico.

Follow Up

Mentre un incidente è in corso, il team di assistenza fornisce aggiornamenti regolari. In genere gli aggiornamenti forniscono:

  • Ulteriori informazioni sull'incidente, come i messaggi di errore, le funzionalità interessate e il livello di diffusione.
  • I progressi verso la mitigazione, incluse eventuali soluzioni alternative.
  • Tempistiche per le comunicazioni, personalizzate in base all'incidente.
  • Cambiamenti di stato, ad esempio quando è stato corretto un incidente.

Analisi post mortem

Tutti gli incidenti generano un'analisi interna post mortem (post incidente) per comprendere appieno l'incidente e identificare i miglioramenti di affidabilità che Google può apportare. Questi miglioramenti vengono quindi monitorati e implementati. Per ulteriori informazioni sulle post mortem in Google, consulta il Capitolo 15 del Site Reliability Engineering Book.

Report sugli incidenti

Quando gli incidenti hanno un impatto molto ampio e grave, Google fornisce rapporti sugli incidenti che descrivono i sintomi, l'impatto, la causa principale, la correzione e la prevenzione futura degli incidenti. Come con le analisi post mortem, prestiamo particolare attenzione ai passaggi che intraprendiamo per risolvere il problema e migliorare l'affidabilità. L'obiettivo di Google per la scrittura e il rilascio di post mortem è quello di essere trasparente e di dimostrare il nostro impegno nella creazione di servizi stabili per i nostri clienti.

Domande frequenti

Voglio ricevere una notifica quando si verifica un'interruzione in corso. Che cosa devo fare?

  • Unisciti al gruppo Notifiche di Google Maps Platform per ricevere notifiche sui problemi in corso e seguire l'avanzamento dell'incidente in tempo reale. Questo gruppo ti aiuterà anche a ricevere gli aggiornamenti sugli annunci di prodotti e piattaforme.
  • Utilizza i link Feed RSS o Cronologia JSON nella parte inferiore della Dashboard dello stato pubblico di Maps per visualizzare un feed di incidenti attuali e passati. Ogni post sulla dashboard attiverà un post sul feed. Per tenerti aggiornato, ogni post nel feed includerà tutti i messaggi e gli aggiornamenti relativi all'evento della dashboard corrispondente. In questo modo non sarà necessario analizzare la cronologia del feed per capire come procedono le cose. I feed RSS vengono pubblicati in formato XML. Le estensioni del browser, come Estensione Abbonamento RSS (di Google), ti consentono di visualizzare l'anteprima dei contenuti del feed e di iscriverti tramite il tuo lettore RSS preferito. La cronologia JSON è un feed web JSON degli incidenti passati. Una gamma di librerie software e framework web supporta la syndication dei contenuti tramite feed JSON.

Che tipo di informazioni sullo stato posso trovare nella home page della dashboard?

La dashboard dello stato pubblico di Google Maps fornisce informazioni sulle API e sui servizi che fanno parte di Google Maps Platform. In caso di incidente attivo, le informazioni verranno pubblicate qui per ogni API e servizio specifici in Google Maps Platform. Gli indicatori di stato sono sempre mostrati e rappresentano l'integrità complessiva di ogni API e servizio da uno dei seguenti elementi:

  • Interruzione del servizio: un sistema o un servizio di produzione non è disponibile. La soluzione alternativa non è disponibile o non può essere implementata facilmente.
  • Interruzione del servizio: un sistema o un servizio di produzione è parzialmente compromesso e/o non funziona come previsto. Esiste una soluzione alternativa.
  • Informazioni sul servizio: un sistema o un servizio di produzione è parzialmente compromesso e/o non funziona come previsto. In genere, il servizio è ancora disponibile e ha un impatto minimo su un numero limitato di utenti.
  • Disponibile: il servizio è perfettamente funzionante e funziona come previsto.

La dashboard è in tempo reale?

La dashboard dello stato pubblico di Maps ha lo scopo di fornire uno stato quasi in tempo reale dei prodotti che sono generalmente disponibili e sono coperti dallo SLA di Google Maps Platform. Tutti gli incidenti vengono verificati prima della pubblicazione, quindi potrebbe verificarsi un leggero ritardo dal momento in cui vengono rilevati per la prima volta. Pertanto, la dashboard non deve essere utilizzata per scopi di monitoraggio del tempo di attività.

Posso utilizzare la dashboard per monitorare il tempo di attività di Google Maps Platform?

La dashboard dello stato pubblico di Maps non è destinata a monitorare lo stato dei servizi GMP in base allo SLA di GMP, poiché le durate delle interruzioni mostrate nella dashboard potrebbero non riflettere il tempo di inattività effettivo (come definito dallo SLA) del tuo progetto, in particolare per gli incidenti di gravità inferiore. Inoltre, le durate mostrate potrebbero includere tempo aggiuntivo dopo la risoluzione del problema per confermare completamente la correzione.

Per monitorare l'utilizzo delle API, creare dashboard e creare avvisi, visita la pagina Google Maps Platform Monitoring.

Che cosa succede se non vedo un incidente nella dashboard?

Non tutti i clienti e i progetti sono interessati da ogni incidente. Nella dashboard vengono visualizzati solo gli incidenti generali e gravi. Se riscontri un problema non elencato nella dashboard, contatta l'assistenza .

Dove posso trovare informazioni sulle interruzioni e i problemi di servizio precedenti?

La pagina Cronologia nella dashboard dello stato pubblico di Maps è un repository di interruzioni e interruzioni degli ultimi 365 giorni. Fai clic su un incidente per esaminare i relativi post mentre era in corso, oltre a eventuali report sugli incidenti pubblicati dal team di assistenza.

Chi aggiorna la dashboard?

Il team di assistenza globale di Google Maps Platform monitora lo stato dei servizi utilizzando numerosi tipi di indicatori diversi e aggiorna la dashboard in caso di problemi diffusi. Se necessario, l'utente pubblicherà anche un report di analisi dettagliato dopo che un incidente è stato risolto.

Qual è la differenza tra un "incidente" e un'"interruzione"?

Sebbene questi termini siano spesso utilizzati in modo intercambiabile, la Dashboard di stato pubblico di Maps e le nostre comunicazioni esterne utilizzano "incidente" per fare riferimento a qualsiasi periodo di servizio ridotto e "interruzione" per indicare solo la compromissione più grave, laddove un servizio non funzioni nella misura in cui l'esperienza dei clienti diventa effettivamente inutile.