Lebenszyklus eines Vorfalls
Die Google Maps Platform entspricht den Anforderungen des Google Cloud Platform-Frameworks für das Vorfallmanagement.
Wenn ein Dienst ausfällt oder beeinträchtigt wird, arbeiten das Produkttechnikteam und das Google Maps Platform-Supportteam zusammen, um den Vorfall zu beheben und Sie darüber zu informieren.
Erkennung
Google verwendet internes und Blackbox-Monitoring, um Vorfälle zu erkennen und entsprechende Benachrichtigungen an unsere Entwickler auslösen zu lassen, damit sie sich der Sache annehmen können. Weitere Informationen finden Sie in Kapitel 6 des Buches „Site Reliability Engineering“.
Wenn Sie einen Vorfall entdecken, der noch nicht im Issue Tracker gemeldet wurde, können Sie in der Google Cloud Console die Seite „Google Maps Platform-Support“ aufrufen und dort eine neue Supportanfrage erstellen.
Erste Antwort
Wenn Google einen Vorfall erkennt, übernimmt das Supportteam die Kommunikation mit Ihnen. Die erste Benachrichtigung ist dabei in der Regel knapp gehalten. Oft werden nur das entsprechende Produkt und die Hauptsymptome genannt. Wir sind der Meinung, dass in diesen Fällen eine schnelle Benachrichtigung wichtiger ist als viele Details. Sobald wir mehr wissen, erhalten Sie Updates mit zusätzlichen Informationen.
Kommunikationskanäle bei Vorfällen
Das Supportteam der Google Maps Platform bietet je nach Umfang und Schweregrad eines Problems verschiedene Kommunikationskanäle für Vorfälle an, um die nötigen Informationen zur Verfügung zu stellen:
Das öffentliche Status-Dashboard für die Google Maps Platform sollte die erste Anlaufstelle sein, wenn ein Problem auftritt. Im Dashboard werden Vorfälle aufgeführt, die viele Kunden betreffen. Wenn Sie also einen Vorfall in der Liste sehen, ist es wahrscheinlich, dass er mit Ihrem Problem zusammenhängt. Vorfälle werden dort als Dienstausfall, Störung oder Information gekennzeichnet, um den Schweregrad anzugeben.
In der öffentlichen Google Groups-Gruppe „Google Maps Platform Notifications“ finden Sie alle weitverbreiteten Ausfälle sowie zusätzliche technische Updates zu den APIs der Google Maps Platform. Alle Kunden, die der Gruppe beitreten, werden per E-Mail über neu erkannte Ausfälle informiert und erhalten weitere Informationen, bis das Problem behoben ist.
Die Statuskarte der Google Maps Platform ist rein informativ. Sie ist jederzeit in der Cloud Console auf der Seite Google Maps Platform-Support zu sehen und zeigt den aktuellen Status von APIs und Diensten der Google Maps Platform. Bei einem aktiven Vorfall wird eine Benachrichtigung mit Informationen zum betroffenen Produkt eingeblendet. Sie enthält auch einen Link zum öffentlichen Status-Dashboard für die Google Maps Platform, auf dem alle aktiven Vorfälle angezeigt werden.
In der Problemverfolgung werden alle bekannten Vorfälle aufgeführt. Dort können Sie sich aktuelle Vorfälle ansehen, ihren Fortschritt verfolgen, indem Sie sie abonnieren, und Kommentare erstellen, um unsere Teams bei ihren Untersuchungen zu unterstützen. Den Link zur Problemverfolgung finden Sie auch unter Support und Ressourcen für die Google Maps Platform.
Ein Problem, das nur Ihre Projekte oder nur eine begrenzte Anzahl von Kunden betrifft, wird als Supportfall abgewickelt. Wenn Sie keinen aktiven Vorfall finden, aber trotzdem ein Problem auftritt, können Sie in der Cloud Console die Supportseite für die Google Maps Platform aufrufen und eine Supportanfrage erstellen.
Untersuchung
Die Ursache von Vorfällen muss von den Produktentwicklungsteams untersucht werden. Das Vorfallmanagement wird oft von Site Reliability Engineering-Mitarbeitern abgewickelt, kann jedoch je nach Situation und Produkt auch von Softwareentwicklern oder anderen Personen übernommen werden. Weitere Informationen finden Sie in Kapitel 12 des Buches „Site Reliability Engineering“.
Abmilderung/Behebung
Ein Problem gilt erst dann als behoben, wenn Änderungen vorgenommen wurden, von denen Google überzeugt ist, dass sie dauerhaft Wirkung zeigen. Zur Problembehebung könnte beispielsweise eine Änderung rückgängig gemacht werden, die einen Vorfall ausgelöst hat.
Während eines Vorfalls versuchen das Support- und das Produktteam, das Problem zu entschärfen, sodass weniger Kunden dadurch beeinträchtigt werden oder die Beeinträchtigung nicht so schwerwiegend ist. Eine Möglichkeit, dies zu erreichen, wäre beispielsweise die vorübergehende Bereitstellung zusätzlicher Ressourcen, wenn ein Dienst überlastet ist.
Wenn keine Lösung zur Entschärfung gefunden wurde, eruiert das Supportteam nach Möglichkeit Workarounds und kommuniziert diese. Workarounds sind Maßnahmen, die Sie ergreifen können, um das zugrunde liegende Problem trotz des Vorfalls zu lösen. Ein Workaround könnte in der Verwendung anderer Einstellungen für einen API-Aufruf bestehen, um einen problematischen Codepfad zu vermeiden.
Follow-up
Während eines Vorfalls stellt das Supportteam regelmäßig aktuelle Informationen bereit. Diese enthalten normalerweise folgende Angaben:
- Weitere Informationen zum Vorfall, etwa Fehlermeldungen, betroffene Funktionen und Ausmaß der Verbreitung
- Fortschritt in Bezug auf die Entschärfung, einschließlich Workarounds
- Zeitpläne für die Kommunikation, zugeschnitten auf den Vorfall
- Statusänderungen, z. B. wenn ein Vorfall behoben ist
Postmortem
Nach jedem Vorfall findet ein sogenanntes Postmortem statt. Diese interne Analyse dient dazu, den Vorfall vollständig nachzuvollziehen und zu bestimmen, wie Google die Zuverlässigkeit verbessern kann. Diese Verbesserungen werden dann erfasst und zum Schluss implementiert. Weitere Informationen zu Postmortems bei Google finden Sie in Kapitel 15 des Buches „Site Reliability Engineering“.
Vorfallbericht
Wenn Vorfälle sehr weitreichende und schwerwiegende Auswirkungen haben, stellt Google Berichte bereit, in denen Symptome, Auswirkungen, Ursachen, Problembehebungen und Möglichkeiten zur künftigen Vermeidung beschrieben werden. Wie bei Postmortems achten wir besonders auf die Maßnahmen, die wir ergreifen, um aus dem Problem zu lernen und die Zuverlässigkeit zu verbessern. Google verfasst und veröffentlicht Postmortems mit dem Ziel, Transparenz zu zeigen und unser Engagement für die Entwicklung stabiler Dienste für unsere Kunden zu demonstrieren.
Häufig gestellte Fragen
Ich möchte über aktuelle Ausfälle benachrichtigt werden. Was kann ich tun?
- Treten Sie der Gruppe „Google Maps Platform Notifications“ bei, um über aktuelle Probleme informiert zu werden und den Fortschritt von Vorfällen in Echtzeit zu verfolgen. Als Mitglied dieser Gruppe erhalten Sie auch immer die neuesten Produkt- und Plattformankündigungen.
- Über den Link RSS-Feed oder JSON-Verlauf am unteren Rand des öffentlichen Status-Dashboards für die Google Maps Platform können Sie einen Feed mit aktuellen und älteren Vorfällen aufrufen. Für jeden Beitrag auf dem Dashboard gibt es einen Beitrag im Feed. Damit Sie immer auf dem Laufenden sind, enthält jeder Feedbeitrag alle Nachrichten und Updates, die sich auf das entsprechende Dashboard-Ereignis beziehen. So müssen Sie nicht den Feedverlauf durchgehen, um sich ein Bild von der Entwicklung zu machen. RSS-Feeds werden im XML-Format veröffentlicht. Mit Browsererweiterungen wie der Erweiterung „RSS-Abo“ (von Google) können Sie sich eine Vorschau der Feedinhalte anzeigen lassen und sie in Ihrem bevorzugten RSS-Reader abonnieren. Der JSON-Verlauf ist ein JSON-Webfeed früherer Vorfälle. Die Content-Syndikation per JSON-Feed wird von einer Reihe von Softwarebibliotheken und Web-Frameworks unterstützt.
Welche Statusinformationen finde ich auf der Startseite des Dashboards?
Auf dem öffentlichen Status-Dashboard finden Sie Informationen zu APIs und Diensten der Google Maps Platform. Wenn es einen aktiven Vorfall gibt, werden hier Informationen für jede einzelne API und jeden Dienst veröffentlicht. Statusindikatoren werden immer angezeigt. Sie spiegeln den Gesamtzustand jeder API und jedes Diensts wider. Es gibt die folgenden Statusarten:
- Dienstausfall: Ein Produktionssystem oder -dienst ist ausgefallen. Es gibt keine Workarounds oder sie lässt sich nur schwer implementieren.
- Dienststörung: Ein Produktionssystem oder -dienst ist nur teilweise verfügbar und/oder funktioniert nicht wie erwartet. Ein Workaround ist vorhanden.
- Dienstinformation: Ein Produktionssystem oder -dienst ist nur teilweise verfügbar und/oder funktioniert nicht wie erwartet. Der Dienst ist in der Regel weiterhin verfügbar, die Auswirkungen sind minimal und sie betreffen nur eine begrenzte Anzahl von Nutzern.
- Verfügbar: Der Dienst ist voll funktionsfähig und kann wie erwartet genutzt werden.
Werden auf dem Dashboard Daten in Echtzeit angezeigt?
Das öffentliche Status-Dashboard soll nahezu in Echtzeit den Status von Produkten zeigen, die allgemein verfügbar und vom SLA der Google Maps Platform abgedeckt sind. Alle Vorfälle werden vor Veröffentlichung überprüft. Daher kann es vorkommen, dass Vorfälle erst kurz nach ihrer ersten Entdeckung angezeigt werden. Das Dashboard sollte also nicht dazu verwendet werden, die Verfügbarkeit zu beobachten.
Lässt sich mit dem Dashboard die Verfügbarkeit der Google Maps Platform überwachen?
Das öffentliche Status-Dashboard für die Google Maps Platform (GMP) ist nicht dafür vorgesehen, den Status von GMP-Diensten gemäß dem GMP-SLA zu überwachen. Die auf dem Dashboard angegebenen Ausfallzeiten spiegeln unter Umständen nicht die tatsächliche Ausfallzeit (gemäß der Definition im SLA) für Ihr Projekt wider. Das kann vor allem bei Vorfällen mit niedrigerem Schweregrad der Fall sein. Darüber hinaus kann die Dauer auf dem Dashboard zusätzliche Zeit beinhalten, die nach der Problembehebung erforderlich war, um zu bestätigen, dass das Problem vollständig behoben wurde.
Informationen zum Monitoring der API-Nutzung, zum Erstellen von Dashboards und zum Erstellen von Benachrichtigungen finden Sie unter Monitoring in der Google Maps Platform.
Was mache ich, wenn ich auf dem Dashboard keinen Vorfall sehe?
Nicht alle Kunden und Projekte sind von jedem Vorfall betroffen. Im Dashboard werden nur allgemeine und schwerwiegende Vorfälle angezeigt. Wenn ein Problem auftritt, das nicht im Dashboard aufgeführt ist, wenden Sie sich an den Support.
Wo finde ich Informationen zu früheren Dienststörungen und -ausfällen?
Im öffentlichen Status-Dashboard für die Google Maps Platform ist auch eine Verlaufsseite mit den Störungen und Ausfällen der letzten 365 Tage verfügbar. Sie können die einzelnen Vorfälle anklicken, um die entsprechenden Beiträge zu lesen und die Vorfallberichte des Supportteams zu sehen, falls welche veröffentlicht wurden.
Wer aktualisiert das Dashboard?
Das globale Google Maps Platform-Supportteam nutzt verschiedenste Signale, um den Status der Dienste zu überwachen, und aktualisiert das Dashboard, falls größere Probleme auftreten. Bei Bedarf veröffentlicht das Team einen detaillierten Analysebericht, nachdem ein Vorfall behoben wurde.
Was ist der Unterschied zwischen einem „Vorfall“ und einem „Ausfall“?
Auch wenn diese Begriffe häufig synonym verwendet werden, gilt auf dem öffentliche Status-Dashboard für die Google Maps Platform und in unserer externen Kommunikation Folgendes: Ein „Vorfall“ liegt vor, wenn der Dienst für gewisse Zeit nur eingeschränkt verfügbar ist. Von einem „Ausfall“ sprechen wir ausschließlich bei schwerwiegenden Problemen, bei denen ein Produkt nicht funktioniert und von unseren Kunden praktisch nicht genutzt werden kann.