Google 地圖平台事件管理

事件的生命週期

Google 地圖平台遵循 Google Cloud Platform 事件管理架構

當服務中斷或效能下降時,產品工程團隊與 Google 地圖平台支援團隊會共同合作以解決事件,並傳送相關通知給您。

lifecycle

偵測

Google 會使用內部和黑箱監控來偵測事件,並觸發快訊通知工程師進行調查。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 6 章

如果您偵測到的事件在 Issue Tracker 中尚未有任何通報記錄,請前往 Google 地圖平台支援網頁的「建立案件」頁面 (位於 Google Cloud 控制台),建立新的客服案件。

初步回應

當 Google 偵測到事件,支援團隊將會主動與您聯繫。一般來說,第一次發出事件通知時,能夠提供的訊息並不多,通常只會提到相關產品以及主要問題。我們的用意是盡速發出通知,重點不在於提供具體細節; 當我們後續掌握更詳盡的資訊,就會向您更新最新情況。

回應

事件通訊管道

為避免資訊量太多或不足,Google 地圖平台支援團隊會視問題影響範圍和嚴重程度,採用不同的事件通訊管道。

一旦您發現有任何影響到您的問題,別忘了先前往地圖公開狀態資訊主頁查看。資訊主頁上會顯示對許多客戶造成影響的事件,而其中列的事件很可能就與您的問題有關。狀態資訊主頁會將事件標示為「服務中斷」、「干擾」或「資訊」,藉此指示事件的嚴重程度。

Google 地圖平台通知群組是公開的 Google 群組,所有大規模服務中斷問題及其他有關 Google 地圖平台 API 的技術更新,都會透過此通知群組進行通報。系統偵測到服務中斷時,所有群組成員都會在第一時間收到電子郵件通知,並且會持續收到後續更新消息,直到問題解決為止。

地圖平台狀態資訊卡主要提供實用訊息,會在 Cloud 控制台的地圖支援部分固定顯示,以供查看地圖平台 API 和服務的目前狀態。發生事件時,系統就會透過訊息指出受影響的產品,並提供地圖公開狀態資訊主頁的連結,方便您查看正在發生的事件。

服務中斷

Issue Tracker 內含所有已知事件的參照清單,方便您查看尚未解決的事件。您可以訂閱事件來追蹤進度,並新增留言協助團隊調查。此外,您也可以在 Google 地圖平台支援說明文件中找到 Issue Tracker 的連結。

如果問題可能與您的專案無關,或只有少數客戶受到影響,則可建立客服案件。如果資訊主頁上沒有任何宣告事件,但您仍一直遇到問題,請前往 Google 地圖平台支援網頁的「建立案件」 (位於 Cloud 控制台) 頁面,建立新的客服案件。

調查

產品工程團隊會負責調查事件的根本原因。事件管理通常由網站穩定性工程師執行,但也可能交由軟體工程師或其他人員負責,視實際情況和產品而定。如要進一步瞭解相關資訊,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 12 章

緩解措施/修正

除非 Google 確認在採行變更後,能永久終止問題造成的影響,才會將該問題歸類為「已修正」。舉例來說,修正可能是將觸發事件的變更復原。

事件還未解決時,支援團隊與產品團隊會嘗試「緩解」問題。「緩解」是指問題的影響或範圍得以縮減,例如暫時為超載服務提供額外資源,以便緩解問題。

如果尚未找出緩解措施,支援團隊會盡可能尋找「因應措施」並傳授給客戶。「因應措施」是指事件尚未修正或緩解前,用來解決基本需求的操作步驟。例如,為 API 呼叫使用不同設定,避開有問題的程式碼路徑,就是一種因應措施。

後續追蹤

在事件發生的過程中,支援團隊會定期向使用者提供更新消息,內容通常包括:

  • 事件的詳細資訊,例如錯誤訊息、哪些功能會受到影響及其影響範圍。
  • 緩解措施的執行進度,包括所有因應措施。
  • 根據事件建立的通訊時間軸。
  • 狀態更新,例如通知「事件已修正」。

檢討報告

所有事件一定會進行內部分析,並在事後出具檢討報告。這是因為 Google 想全盤瞭解事件,並據以研擬可靠的改善措施。在此之後,我們便會持續追蹤並執行這些改善措施。如要進一步瞭解 Google 檢討報告,請參閱《Site Reliability Engineering》(網站穩定性工程) 一書的第 15 章

事件報告

當事件造成廣泛且嚴重的影響,Google 就會提供事件報告,概要說明問題、影響、根本原因、補救措施及日後的防範工作。和檢討報告一樣,我們會把焦點放在 Google 如何從問題中學習,並據以推出相關措施,進一步改善產品/服務可靠性。Google 撰寫及發布檢討報告是為了讓資訊公開透明,並履行我們致力為客戶提供可靠服務的承諾。

常見問題

我想要在發生服務中斷時收到通知,該怎麼做?

  • 加入 Google 地圖平台通知群組即可接收目前問題的相關通知,並即時追蹤事件處理進度。您也可以透過這個群組掌握產品和平台的最新公告資訊。
  • 使用 Google 地圖公開狀態資訊主頁底部的 RSS 動態消息JSON 記錄連結,即可查看目前事件和過往事件的動態消息。每次張貼內容到資訊主頁時,也會張貼內容到動態消息。為即時提供資訊,每次張貼內容到動態消息時,都會包含與對應資訊主頁事件相關的所有訊息和更新內容。如此一來,您就不需要探索動態消息記錄來掌握進度。RSS 動態消息是以 XML 格式發布。RSS 訂閱擴充功能 (由 Google 提供) 等瀏覽器擴充功能可讓您透過喜愛的 RSS 閱讀器預覽與訂閱動態消息內容。JSON 記錄是過往事件的 JSON 網路動態消息。各式各樣的軟體程式庫和網路架構都支援透過 JSON 動態消息聯合發布內容。

我可以在資訊主頁上找到哪種類型的狀態資訊?

Google 地圖公開狀態資訊主頁會針對 Google 地圖平台中的 API 和服務提供相關資訊。發生事件時,這裡就會發布 Google 地圖平台中各項特定 API 和服務的相關資訊。系統一律會顯示以下任一狀態指標,代表各項 API 和服務的整體健全度:

  • 服務中斷:實際執行環境中的系統或服務已停擺。目前沒有可用的因應做法或是難以部署。
  • 服務干擾:實際執行環境中的系統或服務受到部分影響,且/或無法按預期運作。目前有因應做法。
  • 服務資訊:實際執行環境中的系統或服務受到部分影響,且/或無法按預期運作。一般而言,服務仍可正常運作,影響不大,波及少數使用者。
  • 可用:服務功能完全正常,且可按預期運作。

資訊主頁提供的是即時資訊嗎?

地圖公開狀態資訊主頁旨在提供近乎即時的產品狀態,這些產品已全面開放使用,且受到 Google 地圖平台服務水準協議規範。所有事件都必須先經過驗證才能發布,因此發布時間可能會比初次偵測到事件的時間稍晚。由此可知,資訊主頁不應用於追蹤運作時間。

我可以透過資訊主頁監控 Google 地圖平台的運作時間嗎?

Google 地圖公開狀態資訊主頁不適用於判斷 GMP 服務狀態是否符合 GMP 服務水準協議,因為資訊主頁中顯示的服務中斷時間長度可能無法如實反映「停機時間」(如服務水準協議所定義),特別是嚴重程度較低的事件。 此外,這裡顯示的時間長度可能包含問題緩解後花在全面確認修正的額外時間。

如要監控 API 用量並建立資訊主頁和快訊,請前往 Google 地圖平台的監控頁面

如果資訊主頁上未顯示任何事件,該怎麼辦?

事件不一定會影響到所有客戶和專案。資訊主頁只會顯示影響範圍廣大的嚴重事件。如果資訊主頁未列出您遇到的問題,請與支援團隊聯絡

哪裡可以找到有關過往服務干擾和中斷的資訊?

地圖公開狀態資訊主頁的「記錄」頁面彙整了過去 365 天的服務干擾和中斷資訊。按一下特定事件,即可檢視其發生時的相關貼文,以及支援團隊發布的任何事件報告。

資訊主頁由誰更新?

全球 Google 地圖平台支援團隊會運用多種不同類型的信號來監控服務狀態,並在發生重大問題時更新資訊主頁。事件解決後,他們也會視需要發布詳細的分析報告。

「事件」與「服務中斷」有何不同?

雖然這些字詞經常交替使用,但地圖公開狀態資訊主頁和 Google 的外部通訊內容會使用「事件」指稱任何期間的服務效能下降問題;「服務中斷」則僅用於表示最嚴重的問題,也就是服務幾乎無法運作,進而徹底影響客戶體驗的情況。