Google Maps Platform – Vorfallmanagement

Lebenszyklus eines Vorfalls

Für Google Maps Platform-Vorfälle wird den Google Cloud Platform-Abläufen für das Vorfallmanagement gefolgt.

Wenn ein Dienst ausfällt oder beeinträchtigt wird, arbeiten das Produkttechnikteam und das Google Maps Platform-Supportteam zusammen, um den Vorfall zu beheben und dich darüber zu informieren.

Lebenszyklus

Erkennung

Google verwendet internes und Blackbox-Monitoring, um Vorfälle zu erkennen und entsprechende Benachrichtigungen an unsere Entwickler auslösen zu lassen, damit sie sich der Sache annehmen können. Weitere Informationen findest du in Kapitel 6 des Buches „Site Reliability Engineering“.

Wenn du einen Vorfall entdeckst, der noch nicht in der Problemverfolgung gemeldet wurde, kannst du in der Cloud Console die Seite Google Maps Platform Support aufrufen und eine neue Supportanfrage erstellen.

Erste Antwort

Wenn Google einen Vorfall erkennt, übernimmt das Supportteam die Kommunikation mit dir. Die erste Benachrichtigung ist dabei in der Regel knapp gehalten. Oft werden nur das entsprechende Produkt und die Hauptsymptome genannt. Wir sind der Meinung, dass in diesen Fällen eine schnelle Benachrichtigung wichtiger ist als viele Details. Sobald wir mehr wissen, erhältst du Updates mit zusätzlichen Informationen.

Antwort

Kommunikationskanäle bei Vorfällen

Das Supportteam der Google Maps Platform bietet je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle für Vorfälle an, um die nötigen Informationen zur Verfügung zu stellen:

Das öffentliche Status-Dashboard für die Google Maps Platform sollte die erste Anlaufstelle sein, wenn ein Problem auftritt. Im Dashboard werden Vorfälle aufgeführt, die viele Kunden betreffen. Wenn du also einen Vorfall in der Liste siehst, ist es wahrscheinlich, dass er mit deinem Problem zusammenhängt. Vorfälle werden dort entweder als Dienststörung oder als Dienstausfall gekennzeichnet, um den Schweregrad darzustellen. Geringfügigere Probleme mit vergleichsweise kleinen Auswirkungen, die aber viele Kunden betreffen, werden als Information veröffentlicht.

In der öffentlichen Google Groups-Gruppe „Google Maps Platform Notifications“ findest du alle weit verbreiteten Ausfälle sowie zusätzliche technische Updates zu den APIs der Google Maps Platform. Alle Kunden, die der Gruppe beitreten, werden per E-Mail über neu erkannte Ausfälle informiert und erhalten weitere Updates, bis das Problem behoben ist.

Das Supportbanner ist rein informativ. Es wird bei einem aktiven Vorfall in der Cloud Console auf der Seite Google Maps Platform Support eingeblendet und enthält Informationen zum betroffenen Produkt und einen Link zur Problemverfolgung.

Ausfall

In der Problemverfolgung werden alle bekannten Vorfälle aufgeführt. Dort kannst du dir aktuelle Vorfälle ansehen, ihren Fortschritt verfolgen, indem du sie abonnierst, und Kommentare erstellen, um unsere Teams bei ihren Untersuchungen zu unterstützen. Den Link zur öffentlichen Problemverfolgung findest du auch unter Support und Ressourcen für Google Maps Platform.

Es kann sein, dass das Problem nur deine Projekte oder nur eine begrenzte Anzahl von Kunden betrifft. Wenn du keinen vorhandenen Vorfall findest, aber trotzdem ein Problem auftritt, kannst du in der Cloud Console die Seite Google Maps Platform Support aufrufen und eine neue Supportanfrage erstellen.

Untersuchung

Die Ursache von Vorfällen muss von den Produktentwicklungsteams untersucht werden. Das Vorfallmanagement wird oft von Customer Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen findest du in Kapitel 12 des Buches „Site Reliability Engineering“.

Entschärfung/Behebung

Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie die Auswirkungen auf unbestimmte Zeit beenden. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.

Während eines Vorfalls versuchen das Support- und das Produktteam, das Problem abzuschwächen, sodass weniger Kunden dadurch beeinträchtigt werden oder die Beeinträchtigung nicht so schwerwiegend ist. Eine Möglichkeit, dies zu erreichen, wäre beispielsweise die vorübergehende Bereitstellung zusätzlicher Ressourcen, wenn ein Dienst überlastet ist.

Wenn keine Lösung zur Entschärfung gefunden wurde, eruiert das Supportteam nach Möglichkeit Problemumgehungen und kommuniziert diese. Problemumgehungen sind Maßnahmen, die du ergreifen kannst, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Eine Problemumgehung könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.

Follow-up

Während eines Vorfalls stellt das Supportteam regelmäßig Aktualisierungen bereit. Diese enthalten normalerweise Folgendes:

  • Weitere Informationen zum Vorfall, etwa Fehlermeldungen, betroffene Funktionen und Ausmaß der Verbreitung
  • Fortschritt in Bezug auf die Entschärfung, einschließlich Problemumgehungen
  • Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall
  • Statusänderungen, z. B. wenn ein Vorfall behoben ist

Postmortem

Nach jedem Vorfall findet ein sogenanntes Postmortem statt. Diese interne Analyse dient dazu, den Vorfall vollständig nachzuvollziehen und zu bestimmen, wie Google die Zuverlässigkeit verbessern kann. Diese Verbesserungen werden dann erfasst und zum Schluss implementiert. Weitere Informationen zu Postmortems bei Google findest du in Kapitel 15 des Buches „Site Reliability Engineering“.

Vorfallbericht

Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Vorfallberichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung von Vorfällen beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Dienste für unsere Kunden zu demonstrieren.

FAQ

Ich möchte über aktuelle Ausfälle benachrichtigt werden. Was soll ich tun?

Tritt der Gruppe „Google Maps Platform Notifications“ bei, um über aktuelle Probleme informiert zu werden und den Fortschritt von Vorfällen in Echtzeit zu verfolgen. Als Mitglied dieser Gruppe erhältst du auch immer die neuesten Produkt- und Plattformankündigungen.

Welche Statusinformationen finde ich auf der Startseite des Dashboards?

Auf dem öffentlichen Status-Dashboard für die Google Maps Platform findest du Informationen zu den Status der einzelnen Dienste der Google Maps Platform. Dabei werden die folgenden Anzeigen verwendet:

  • Dienstausfall: Ein Produktionssystem oder -dienst ist ausgefallen. Es gibt keine Problemumgehung oder sie lässt sich nur schwer implementieren.
  • Dienststörung: Ein Produktionssystem oder -dienst ist nur teilweise verfügbar und/oder funktioniert nicht wie erwartet. Eine Problemumgehung ist vorhanden.
  • Geringfügiger Vorfall: Das ist eine rein informative Anzeige für Vorfälle mit minimalen Auswirkungen. Der Dienst ist weiter allgemein verfügbar.
  • Verfügbar: Der Dienst ist voll funktionsfähig und kann wie erwartet genutzt werden.

Wo finde ich Informationen zu früheren Dienststörungen und -ausfällen?

Im öffentlichen Status-Dashboard für die Google Maps Platform ist auch eine Verlaufsseite mit den Störungen und Ausfällen der letzten 365 Tage verfügbar. Du kannst die einzelnen Vorfälle anklicken, um die entsprechenden Beiträge zu lesen und die Vorfallberichte des Supportteams zu sehen, falls welche veröffentlicht wurden.

Wer aktualisiert das Dashboard?

Das globale Google Maps Platform-Supportteam nutzt verschiedenste Signale, um den Status der Dienste zu beobachten, und aktualisiert das Dashboard, falls größere Probleme auftreten. Bei Bedarf veröffentlicht das Team einen detaillierten Analysebericht, nachdem ein Vorfall behoben wurde.

Was ist der Unterschied zwischen einem „Vorfall“ und einem „Ausfall“?

Auch wenn diese Begriffe häufig synonym verwendet werden, gilt auf dem öffentliche Status-Dashboard für die Google Maps Platform und in unserer externen Kommunikation Folgendes: Ein „Vorfall“ liegt vor, wenn der Dienst für gewisse Zeit nur eingeschränkt verfügbar ist. Von einem „Ausfall“ sprechen wir ausschließlich bei schwerwiegenden Problemen, bei denen ein Produkt nicht funktioniert und von unseren Kunden praktisch nicht genutzt werden kann.