Zarządzanie incydentami w Google Maps Platform

Cykl życia incydentu

Google Maps Platform stosuje się do ramowego rozwiązania Google Cloud Platform do zarządzania incydentami.

Gdy wystąpi przerwa w działaniu usługi lub pogorszenie jej jakości, zespół ds. rozwoju produktu i zespół pomocy Google Maps Platform wspólnie starają się rozwiązać problem i poinformować Cię o nim.

cykl życia

Wykrywanie

Google używa wewnętrznego i czarnego pudełka do wykrywania incydentów oraz wysyłania alertów do naszych inżynierów w celu ich zbadania. Więcej informacji znajdziesz w rozdziale 6 książki Site Reliability Engineering.

Jeśli wykryjesz incydent, który nie został jeszcze zgłoszony w Issue Tracker, otwórz stronę tworzenia zgłoszenia w Google Maps Platform (w Google Cloud Console) i utwórz nowe zgłoszenie.

Pierwsza odpowiedź

Gdy Google wykryje incydent, zespół pomocy będzie się z Tobą kontaktować. Początkowe powiadomienie o incydencie jest często skąpe i często zawiera tylko informacje o produkcie oraz kluczowe objawy. Dzieje się tak, ponieważ priorytetem jest szybkie powiadomienie. W miarę zdobywania nowych informacji będziemy je udostępniać w kolejnych aktualizacjach.

odpowiedź

Kanały komunikacji dotyczące incydentów

Aby zapewnić odpowiednią ilość informacji, zespół pomocy Google Maps Platform oferuje różne kanały komunikacji dotyczące incydentów, w zależności od zakresu i powagi problemu:

Gdy zauważysz problem, który Cię dotyczy, najpierw sprawdź panel stanu Map. Panel pokazuje incydenty, które dotyczą wielu klientów, więc jeśli widzisz taki incydent, prawdopodobnie jest on powiązany z Twoim problemem. Aby wskazać wagę problemu, Panel stanu oznacza incydenty jako przerwę w działaniu usługi, zakłócenie lub informację.

Grupa powiadomień Google Maps Platform to publiczna grupa Google, w której zgłaszane są wszystkie rozległe przerwy w działaniu, a także inne informacje techniczne dotyczące interfejsów API Google Maps Platform. Wszyscy członkowie grupy otrzymają e-maila z powiadomieniem o początkowym wykryciu przerwy w działaniu i kolejne aktualizacje do czasu rozwiązania problemu.

Karta stanu Maps Platform to wiadomość informacyjna, która jest zawsze widoczna w sekcji Pomoc Maps w konsoli Cloud i pokazuje bieżący stan interfejsów API oraz usług Maps Platform. Gdy wystąpi aktywny problem, pojawi się komunikat z informacją o dotkniętym produkcie oraz linkiem do panelu publicznego stanu Map, na którym można zobaczyć aktywne problemy.

przerwa w działaniu

Issue Tracker zawiera listę wszystkich znanych incydentów. Możesz wyświetlać otwarte incydenty i śledzić ich postępy, subskrybując je, oraz dodawać komentarze, aby pomóc naszym zespołom w prowadzeniu śledztwa. Link do Issue Trackera znajdziesz też w dokumentacji Map Google.

Sprawy są używane, jeśli problem dotyczy tylko Twoich projektów lub wpływa na ograniczoną liczbę klientów. Jeśli nie zgłoszono żadnego incydentu, ale nadal występuje problem, otwórz stronę tworzenia zgłoszenia w zespole pomocy Google Maps Platform (w konsoli Cloud) i utwórz nowe zgłoszenie.

Badanie

Za badanie przyczyn problemów odpowiadają zespoły inżynierów zajmujących się usługami. Zarządzanie incydentami jest często wykonywane przez inżynierów ds. niezawodności witryny, ale może być wykonywane przez inżynierów oprogramowania lub inne osoby w zależności od sytuacji i produktu. Więcej informacji znajdziesz w rozdziale 12 książki Site Reliability Engineering.

Środki zaradcze/rozwiązanie

Problem jest uważany za rozwiązany tylko wtedy, gdy wprowadzono zmiany, które wyeliminowały problem na stałe. Może to być na przykład wycofanie zmiany, która spowodowała wystąpienie incydentu.

Podczas trwania incydentu zespoły pomocy i produktów będą próbować załagodzić problem. Łagodzenie ma miejsce, gdy można ograniczyć wpływ problemu lub zakres problemu, na przykład tymczasowo udostępniając dodatkowe zasoby usłudze, która ma problem z przeciążeniem.

Jeśli nie udało się znaleźć sposobu na złagodzenie problemu, zespół pomocy w miarę możliwości znajdzie i przekaże sposób obejścia problemu. Obejścia to czynności, które możesz wykonać, aby zaspokoić określone potrzeby pomimo zaistniałego incydentu. Aby uniknąć problemu, możesz użyć innych ustawień wywołania interfejsu API.

Dalsze działania

Podczas trwania incydentu zespół pomocy regularnie wysyła aktualne informacje. Aktualizacje zwykle zawierają:

  • więcej informacji o incydencie, np. komunikaty o błędach, funkcje, na które ma wpływ, i rozpowszechnienie problemu;
  • postępy w łagodzeniu problemu, w tym obejścia.
  • Harmonogram komunikacji dostosowany do incydentu.
  • zmiany stanu, np. gdy problem został rozwiązany;

Postmortem

Wszystkie incydenty są analizowane wewnętrznie (po incydencie) w celu pełnego zrozumienia incydentu i określenia możliwości poprawy niezawodności, które Google może wprowadzić. Następnie śledzimy i wdrażamy te ulepszenia. Więcej informacji o analizach przyczyn awarii w Google znajdziesz w rozdziale 15 książki Site Reliability Engineering.

Raport o incydencie

Gdy incydenty mają bardzo szeroki i poważny wpływ, Google udostępnia raporty o incydentach, które opisują objawy, wpływ, przyczynę, rozwiązanie oraz zapobieganie incydentom w przyszłości. Podobnie jak w przypadku analizy przyczyn, zwracamy szczególną uwagę na kroki podejmowane w celu poznania przyczyny problemu i zwiększenia niezawodności. Celem Google w przypadku sporządzania i publikowania raportów postmortem jest zapewnienie przejrzystości oraz zademonstrowanie naszego zaangażowania w tworzenie stabilnych usług dla klientów.

Najczęstsze pytania

Chcę otrzymywać powiadomienia o trwalejących przerwach w działaniu usługi. Co mam zrobić?

  • Dołącz do grupy powiadomień Google Maps Platform, aby otrzymywać powiadomienia o bieżących problemach i śledzić postępy w rozwiązywaniu incydentu w czasie rzeczywistym. Ta grupa pomoże Ci też być na bieżąco z nowościami dotyczącymi usług i platform.
  • Aby wyświetlić kanał bieżących i przeszłych incydentów, kliknij linki Kanał RSS lub Historia w formacie JSON u dołu panelu stanu publicznego Map. Każdy post na panelu wywoła publikację na kanale. Aby zapewnić Ci aktualne informacje, każdy post na kanale będzie zawierać wszystkie wiadomości i aktualizacje dotyczące odpowiadającego mu zdarzenia w panelu. Dzięki temu nie musisz przeszukiwać historii kanału, aby dowiedzieć się, jak idą sprawy. kanały RSS są publikowane w formacie XML. Rozszerzenia do przeglądarki, takie jak rozszerzenie RSS Subscription Extension (autorstwa Google), umożliwiają wyświetlanie podglądu treści kanału i subskrybowanie go za pomocą ulubionego czytnika RSS. Historia w formacie JSON to plik danych sieciowych w formacie JSON z informacjami o poprzednich incydentach. Wiele bibliotek oprogramowania i ramek internetowych obsługuje dystrybucję treści za pomocą pliku danych JSON.

Jakiego typu informacje o stanie mogę znaleźć na stronie głównej panelu?

Panel stanu Map Google zawiera informacje o interfejsach API i usługach, które są częścią Google Maps Platform. Jeśli wystąpi aktywny problem, informacje o konkretnym interfejsie API i usłudze w Google Maps Platform zostaną opublikowane tutaj. W tym celu zawsze wyświetlają się wskaźniki stanu, które wskazują ogólny stan każdego interfejsu API i usługi. Mogą to być:

  • Przerwa w działaniu usługi: system produkcyjny lub usługa są niedostępne. obejście problemu jest niedostępne lub niełatwe do wdrożenia;
  • Utrudnienia w korzystaniu z usługi: system produkcyjny lub usługa są częściowo niedostępne lub nie działają zgodnie z oczekiwaniami. Istnieje rozwiązanie tymczasowe.
  • Informacje o usłudze: system produkcyjny lub usługa działają częściowo nieprawidłowo lub nie działają zgodnie z oczekiwaniami. Usługa jest nadal dostępna, a jej utrata jest niewielka i dotyczy niewielkiej liczby użytkowników.
  • Dostępna: usługa jest w pełni funkcjonalna i działa zgodnie z oczekiwaniami.

Czy panel działa w czasie rzeczywistym?

Panel stanu Map Publicznych ma na celu wyświetlanie stanu usług ogólnodostępnych, objętych umową SLA Google Maps Platform, w czasie zbliżonym do rzeczywistego. Wszystkie incydenty są weryfikowane przed opublikowaniem, dlatego może wystąpić niewielkie opóźnienie w informowaniu o ich wystąpieniu. W związku z tym pulpitu nie należy używać do śledzenia czasu działania.

Czy mogę używać panelu do monitorowania dostępności Google Maps Platform?

Panel stanu Map Publicznych nie służy do monitorowania stanu usług GMP na podstawie gwarancji jakości usługi GMP, ponieważ czas przerwy w działaniu wyświetlany w panelu może nie odpowiadać rzeczywistemu „czasowi przestoju” (zdefiniowanemu w gwarancji jakości usługi) w przypadku Twojego projektu, zwłaszcza w przypadku incydentów o mniejszym stopniu ważności. Ponadto wyświetlane czasy mogą obejmować dodatkowy czas po usunięciu problemu, aby w pełni potwierdzić poprawkę.

Aby monitorować korzystanie z interfejsu API, tworzyć panele i alerty, otwórz stronę Monitorowanie Google Maps Platform.

Co zrobić, jeśli nie widzę zdarzenia na panelu?

Nie wszystkie incydenty mają wpływ na wszystkich klientów i projekty. Na panelu wyświetlane są tylko poważne incydenty. Jeśli napotkasz problem, którego nie ma na panelu, skontaktuj się z zespołem pomocy .

Gdzie znajdę informacje o przerwach w działaniu usług?

Historia na stronie panelu publicznego stanu Map to repozytorium przerw i awarii z ostatnich 365 dni. Aby przejrzeć posty na temat incydentu, który miał miejsce w okresie, gdy był aktywny, a także wszelkie raporty o incydentach opublikowane przez zespół pomocy, kliknij incydent.

Kto aktualizuje panel?

Globalny zespół pomocy Google Maps Platform monitoruje stan usług, korzystając z różnych typów sygnałów, i aktualizuje panel w przypadku problemów o dużym zasięgu. W razie potrzeby po rozwiązaniu problemu zespół może też opublikować szczegółowy raport z analizy.

Jaka jest różnica między „incydentem” a „przestojem”?

Chociaż te terminy są często używane zamiennie, w panelu stanu Map Google i w naszych komunikatach zewnętrznych termin „incydent” odnosi się do każdego okresu pogorszenia działania usługi, a termin „awaria” odnosi się tylko do najbardziej poważnego pogorszenia działania, w którym usługa nie działa w takim stopniu, że korzystanie z niej jest dla klientów niemożliwe.