Google Maps Platform のインシデント管理

インシデントのライフサイクル

Google Maps Platform は Google Cloud Platform インシデント管理フレームワークに準拠しています。

サービスが停止した場合やサービス品質が低下した場合は、サービス エンジニアリング チームと Google Maps Platform サポートチームが協力してインシデントを解決し、その状況をお客様に通知します。

ライフサイクル

検出

Google では、内部でブラック ボックス モニタリングを使用してインシデントを検出し、調査のためにエンジニアへのアラートをトリガーしています。詳しくは、Google の書籍『Site Reliability Engineering』の第 6 章をご覧ください。

Issue Tracker にまだ報告されていないインシデントを見つけた場合は、Google Maps Platform の [サポート] ページ(Google Cloud Console 内)へ移動して、新しいサポートケースを作成してください。

最初の対応

インシデントが検出されると、サポートチームからお客様に通知が届きます。通常、インシデントの最初の通知には多くの情報が含まれません。該当するサービスと主な問題を知らせるだけの場合もあります。これは、情報の詳しさより、まずは迅速な通知を優先しているためです。 詳細については、以降のアップデートで随時お知らせいたします。

対応

インシデント通知チャネル

適切な情報を適切なタイミングで提供するため、Google Maps Platform のサポートチームでは、問題の影響範囲と重大度に応じて通知チャネルを使い分けています。

問題が起こっていることがわかったら、まずマップ公開ステータス ダッシュボードを確認してください。このダッシュボードには多くのお客様に影響するインシデントが示されるため、ここに示されているインシデントが問題に関連している可能性が考えられます。重大度を示すために、ステータス ダッシュボードではインシデントを「中断」または「停止」としてマークしています。重要性が低く影響も少ないものの、影響が広範囲に及ぶ問題もあり、こうした問題については、情報提供を目的としたインシデントとして投稿されます。

Google Maps Platform の通知グループは、Google Maps Platform API に関する一般的な技術情報に加え、広範囲に影響するすべての機能停止を報告する Google の公開グループです。サービス停止が最初に検出されると、すべてのグループ メンバーにメール通知が送られ、その後、問題が解決するまで最新情報が随時送られます。

サポート バナーは、アクティブなインシデントがある場合に、Cloud Console の [マップのサポート] セクションに表示される情報提供メッセージです。このメッセージには、影響を受けるサービスと、Issue Tracker へのリンクが表示されます。

サービス停止

Issue Tracker には、既知のすべてのインシデントが一覧表示されます。進行中のインシデントを確認できるほか、特定のインシデントを通知登録して進捗状況を追跡したり、サポートチームの調査に役立つコメントを追加したりすることもできます。公開 Issue Tracker へのリンクは、Google Maps Platform のサポート ドキュメントにも記載されています。

サポートケースは、問題の影響がお客様のプロジェクトに限られる場合や、影響を受けるお客様の数が限られている場合に使用されます。インシデントが報告されていないが、まだ問題が解決しない場合は、Google Maps Platform の [サポート] ページ( Cloud Console 内)へ移動して、新しいサポートケースを作成してください。

調査

インシデントの根本原因の調査は、サービス エンジニアリング チームが担当します。通常、インシデント管理はサイト信頼性エンジニアが行いますが、対象となるサービスや状況によっては、ソフトウェア エンジニアやその他の担当者が行うこともあります。詳しくは、Google の書籍『Site Reliability Engineering』の第 12 章をご覧ください。

軽減 / 解決

問題が解決したとみなされるのは、以前に行った変更の影響が完全になくなったと確信できる場合のみです。たとえば、インシデントの発生原因となった変更をロールバックする場合などがこれにあたります。

インシデントが継続している間は、サポートチームとサービスチームが問題の軽減を試みます。過負荷のサービスに一時的にリソースを追加するなど、なんらかの方法で問題を軽減することで、その影響や範囲を縮小できます。

問題を軽減する方法が見つからない場合、可能であれば、サポートチームが回避策を提案します。回避策とは、インシデントが存在する状況で、基本的なニーズを満たすために講じる対策です。たとえば、問題のあるコードパスを避けるため、別の設定を使用して API を呼び出す方法などがあります。

フォローアップ

インシデントが続いている間は、サポートチームが定期的に最新情報を提供します。通常は、次の情報が提供されます。

  • インシデントに関する詳細(エラー メッセージ、影響を受ける機能、影響が及ぶ範囲など)
  • 問題の軽減に向けた進捗状況(回避策を含む)
  • 通知のスケジュール(インシデントに合わせて調整)
  • ステータスの変更(インシデントが解決されたときなど)

事後分析

インシデントを十分に理解し、信頼性の改善へ向けて Google がすべきことを明らかにするため、すべてのインシデントが社内で事後分析されます。事後分析によって特定された改善策が追跡および実装されます。Google での事後分析について詳しくは、Google の書籍『Site Reliability Engineering』の第 15 章をご覧ください。

インシデント レポート

広範囲にわたり深刻な影響を与えるインシデントの場合、Google は、その症状、影響、根本原因、是正措置、今後のインシデント防止策をまとめたインシデント レポートをリリースします。事後分析と同じく、Google が特に注意を向けるのは、問題から学び、信頼性を改善するために講じる措置です。Google が事後分析レポートを作成し、リリースする目的は、透明性を維持し、安定したサービスの構築へ向けた Google の取り組みをお客様に示すことです。

よくある質問

サービス停止の通知を受け取るにはどうすればよいですか?

Google Maps Platform Notifications グループに参加すると、現在発生している問題の通知を受け取り、インシデントの解決状況をリアルタイムで知ることができます。このグループでは、サービスやプラットフォームに関する最新の発表も確認できます。

ダッシュボード ホームページには、どのような種類のステータス情報が表示されますか?

Google マップ公開ステータス ダッシュボードには、Google Maps Platform に含まれるサービスのステータス情報が表示されます。ステータス インジケーターには次のいずれかが含まれています。

  • サービス停止: 本番環境システムまたはサービスがダウンしています。回避策がない、または簡単に実装できません。
  • サービス中断: 本番環境システムまたはサービスが一部機能していない、または正常に動作しません。回避策があります。
  • 軽度のインシデント: 影響の低い問題。情報提供を目的として提供されます。サービスは通常、利用可能なままです。
  • 利用可能: サービスは完全に機能しており、正常に動作しています。

過去のサービス中断とサービス停止に関する情報はどこで調べることができますか?

マップ公開ステータス ダッシュボードの [ 履歴] ページは、過去 365 日間に発生した中断や停止に関する情報が保存されています。インシデントをクリックすると、そのインシデントの発生中に投稿された説明と、サポートチームによって公開されたインシデント レポートを確認できます。

ダッシュボードを更新しているのは誰ですか?

Google Maps Platform グローバル サポートチームは、さまざまなシグナルを使用してサービスのステータスをモニタリングし、広範囲で問題が発生した場合はダッシュボードを更新します。また、必要に応じて、インシデントの解決後に詳細な分析レポートも投稿します。

「インシデント」と「サービス停止」の違いを教えてください。

通常、この 2 つの用語は同じ意味で使用されますが、マップ公開ステータス ダッシュボードおよび Google 外部への通知では、サービスの品質が低下している状況を表す場合に「インシデント」を使用し、サービスがほとんど機能せず、お客様の役に立っていないといった極めて深刻な状況の場合のみ「サービス停止」を使用します。