Quản lý sự cố trên nền tảng Google Maps

Vòng đời của một sự cố

Google Maps Platform tuân thủ khung quản lý sự cố của Google Cloud Platform.

Khi sự cố ngừng dịch vụ hoặc hạ cấp dịch vụ, nhóm kỹ thuật sản phẩm và nhóm hỗ trợ Nền tảng Google Maps sẽ làm việc cùng nhau để giải quyết sự cố và thông báo cho bạn.

lifecycle

Phát hiện

Google sử dụng tính năng giám sát hộp đen và nội bộ để phát hiện sự cố và gửi cảnh báo cho các kỹ sư để điều tra. Để biết thêm thông tin, hãy xem Chương 6 trong cuốn sách Kỹ thuật về độ tin cậy cho trang web.

Nếu bạn phát hiện một sự cố chưa được báo cáo trong Công cụ theo dõi lỗi, hãy truy cập trang Tạo yêu cầu hỗ trợ của Nền tảng Google Maps (trong Google Cloud Console) rồi tạo một yêu cầu hỗ trợ mới.

Phản hồi ban đầu

Khi Google phát hiện sự cố, Nhóm hỗ trợ sẽ dẫn liên lạc với bạn. Thông báo ban đầu về sự cố thường thưa thớt, thường chỉ đề cập đến sản phẩm có liên quan cùng với các triệu chứng chính. Lý do là chúng tôi ưu tiên thông báo nhanh hơn là thông báo chi tiết. Khi chúng tôi tìm hiểu thêm, chúng tôi sẽ cung cấp thêm thông tin chi tiết trong những bản cập nhật tiếp theo.

phản hồi

Kênh liên lạc về sự cố

Để cung cấp lượng thông tin phù hợp, Nhóm hỗ trợ Nền tảng Google Maps cung cấp các kênh liên lạc về sự cố khác nhau, tùy thuộc vào phạm vi và mức độ nghiêm trọng của vấn đề:

Trang tổng quan về trạng thái công khai trên Maps là nơi đầu tiên bạn có thể kiểm tra khi phát hiện sự cố đang ảnh hưởng đến mình. Trang tổng quan hiển thị các sự cố ảnh hưởng đến nhiều khách hàng, vì vậy, nếu bạn thấy một sự cố được liệt kê thì sự cố đó có thể liên quan đến vấn đề của bạn. Để cho biết mức độ nghiêm trọng, trang tổng quan về trạng thái sẽ đánh dấu các sự cố là ngừng dịch vụ, gián đoạn hoặc cung cấp thông tin.

Nhóm thông báo của Nền tảng Google Maps là một nhóm công khai của Google, nơi báo cáo tất cả các sự cố ngừng dịch vụ trên diện rộng, bên cạnh các nội dung cập nhật kỹ thuật khác về các API trên Nền tảng Google Maps. Tất cả thành viên trong nhóm sẽ nhận được thông báo qua email khi phát hiện sự cố ngừng dịch vụ ban đầu kèm theo các cập nhật tiếp theo cho đến khi vấn đề được giải quyết.

Thẻ trạng thái của Nền tảng Maps là một thông báo thông tin luôn xuất hiện trong mục Hỗ trợ Maps trên Cloud Console cho biết trạng thái hiện tại của các dịch vụ và API Nền tảng Maps. Khi có sự cố đang diễn ra, sẽ có một thông báo xác định sản phẩm bị ảnh hưởng và kèm theo một đường liên kết đến Trang tổng quan trạng thái công khai trên Maps. Tại đây, bạn có thể xem các sự cố đang diễn ra.

ngừng dịch vụ

Công cụ theo dõi lỗi chứa danh sách tham khảo về tất cả sự cố đã biết. Bạn có thể xem các sự cố chưa xử lý, theo dõi tiến trình của các sự cố đó bằng cách đăng ký sự cố và thêm nhận xét để giúp nhóm của chúng tôi điều tra. Bạn cũng có thể tìm thấy đường liên kết đến Công cụ theo dõi lỗi trong tài liệu hỗ trợ của Nền tảng Google Maps.

Các yêu cầu hỗ trợ được dùng nếu vấn đề có thể được tách riêng cho(các) dự án của bạn hoặc ảnh hưởng đến một số lượng khách hàng hạn chế. Nếu chưa có sự cố nào được khai báo nhưng bạn vẫn gặp vấn đề, hãy truy cập trang Tạo yêu cầu hỗ trợ dành cho Nền tảng Google Maps (trong Cloud Console) và tạo một yêu cầu hỗ trợ mới.

Điều tra

Các nhóm kỹ thuật về sản phẩm có trách nhiệm điều tra nguyên nhân sâu xa của sự cố. Việc quản lý sự cố thường do các kỹ sư quản lý độ tin cậy cho công trường thực hiện, nhưng cũng có thể do các kỹ sư phần mềm hoặc những người khác đảm nhiệm, tuỳ thuộc vào tình hình và sản phẩm. Để biết thêm thông tin, hãy xem Chương 12 của Cuốn sách kỹ thuật về độ tin cậy cho trang web.

Biện pháp khắc phục/khắc phục

Một vấn đề chỉ được coi là đã khắc phục khi bạn đã thực hiện những thay đổi mà Google chắc chắn sẽ kết thúc ảnh hưởng vô thời hạn. Ví dụ: bản sửa lỗi có thể khôi phục một thay đổi đã kích hoạt một sự cố.

Khi sự cố đang diễn ra, các nhóm Hỗ trợ và Sản phẩm sẽ cố gắng giảm thiểu sự cố. Có thể giảm thiểu tác động hoặc phạm vi của một vấn đề, chẳng hạn như bằng cách tạm thời cung cấp tài nguyên bổ sung cho một dịch vụ bị quá tải.

Nếu không tìm thấy giải pháp giảm thiểu, thì Nhóm hỗ trợ sẽ tìm và thông báo giải pháp khi có thể. Giải pháp là các bước bạn có thể thực hiện để giải quyết nhu cầu cơ bản bất kể sự cố. Một giải pháp có thể là sử dụng nhiều chế độ cài đặt cho một lệnh gọi API để tránh đường dẫn mã có vấn đề.

Tiếp nối

Khi sự cố đang diễn ra, Nhóm hỗ trợ sẽ thường xuyên cập nhật thông tin. Các bản cập nhật thường cung cấp:

  • Thông tin bổ sung về sự cố, chẳng hạn như các thông báo lỗi, những tính năng bị ảnh hưởng và mức độ lan rộng của sự cố.
  • Tiến trình khắc phục, bao gồm cả mọi giải pháp thay thế.
  • Tiến trình liên lạc, điều chỉnh cho phù hợp với sự cố.
  • Các thay đổi về trạng thái, chẳng hạn như khi sự cố được khắc phục.

Phân tích sau khi thất bại

Tất cả sự cố đều cần phải được phân tích nội bộ hậu sự cố (sau khi xảy ra sự cố) để hiểu rõ sự cố và xác định những điểm cần cải thiện về độ tin cậy mà Google có thể thực hiện. Sau đó, Google theo dõi và triển khai những điểm cải tiến này. Để biết thêm thông tin về các quy trình nghiên cứu hậu kỳ tại Google, hãy xem Chương 15 trong Sách kỹ thuật về độ tin cậy cho trang web.

Báo cáo sự cố

Khi sự cố có tác động rất lớn và nghiêm trọng, Google sẽ cung cấp báo cáo sự cố nêu rõ các triệu chứng, tác động, nguyên nhân gốc rễ, biện pháp khắc phục và cách phòng ngừa sự cố trong tương lai. Tương tự với các nghiên cứu hậu kỳ, chúng tôi đặc biệt chú ý đến những bước chúng tôi thực hiện để rút kinh nghiệm từ vấn đề đó và cải thiện độ tin cậy. Mục tiêu của Google bằng văn bản và đưa ra báo cáo phân tích hậu sự là minh bạch và thể hiện cam kết của chúng tôi trong việc xây dựng các dịch vụ ổn định cho khách hàng.

Câu hỏi thường gặp

Tôi muốn nhận thông báo khi có sự cố ngừng dịch vụ đang diễn ra. Tôi cần làm gì?

  • Tham gia nhóm Thông báo của Nền tảng Google Maps để nhận thông báo về các vấn đề đang diễn ra và theo dõi tiến độ của sự cố theo thời gian thực. Nhóm này cũng giúp bạn cập nhật các thông báo về sản phẩm và nền tảng.
  • Sử dụng đường liên kết Nguồn cấp dữ liệu RSS hoặc Nhật ký JSON ở cuối Trang tổng quan trạng thái công khai trên Maps để xem nguồn cấp dữ liệu về các sự cố hiện tại và trước đây. Mỗi bài đăng lên Trang tổng quan sẽ kích hoạt một bài đăng cho nguồn cấp dữ liệu. Để giúp bạn nắm bắt thông tin, mỗi bài đăng trên nguồn cấp dữ liệu sẽ bao gồm tất cả thông báo và nội dung cập nhật liên quan đến sự kiện tương ứng trên Trang tổng quan. Như vậy, bạn sẽ không cần phải tìm hiểu sâu hơn về nhật ký nguồn cấp dữ liệu của mình để nắm được tiến trình của mọi thứ. Nguồn cấp dữ liệu RSS được xuất bản ở định dạng XML. Các tiện ích của trình duyệt như Tiện ích đăng ký RSS (của Google) cho phép bạn xem trước nội dung nguồn cấp dữ liệu và đăng ký thông qua trình đọc RSS mà bạn yêu thích. Nhật ký JSON là một Nguồn cấp dữ liệu web JSON chứa các sự cố trước đây. Một loạt các thư viện phần mềm và khung web hỗ trợ phân phối nội dung thông qua Nguồn cấp dữ liệu JSON.

Tôi có thể tìm thấy loại thông tin trạng thái nào trên trang chủ trang tổng quan?

Trang tổng quan trạng thái công khai trên Google Maps cung cấp thông tin về các API và dịch vụ thuộc Nền tảng Google Maps. Nếu có sự cố đang diễn ra, thông tin sẽ được đăng tại đây cho từng API và dịch vụ cụ thể trong Nền tảng Google Maps. Các chỉ báo trạng thái luôn hiển thị, cho biết tình trạng tổng thể của từng API và dịch vụ theo một trong những cách sau:

  • Ngừng dịch vụ: Hệ thống sản xuất hoặc dịch vụ ngừng hoạt động. Giải pháp thay thế không có sẵn hoặc không dễ triển khai.
  • Gián đoạn dịch vụ: Hệ thống sản xuất hoặc dịch vụ bị suy yếu một phần và/hoặc không hoạt động như mong đợi. Giải pháp tạm thời đã tồn tại.
  • Thông tin dịch vụ: Hệ thống sản xuất hoặc dịch vụ bị suy yếu một phần và/hoặc không hoạt động như mong đợi. Nhìn chung, dịch vụ này vẫn hoạt động, tác động không đáng kể và chỉ ảnh hưởng một số ít người dùng.
  • Có sẵn: Dịch vụ có đầy đủ chức năng và hoạt động như mong đợi.

Trang tổng quan có theo thời gian thực không?

Mục đích của Trang tổng quan về trạng thái công khai trên Maps là cung cấp trạng thái gần như theo thời gian thực của các sản phẩm được cung cấp rộng rãi và tuân theo Thoả thuận mức độ cung cấp dịch vụ (SLA) của Nền tảng Google Maps. Mọi sự cố đều được xác minh trước khi đăng nên có thể có đôi chút chậm trễ kể từ thời điểm phát hiện đầu tiên. Do đó, bạn không nên sử dụng trang tổng quan cho mục đích theo dõi thời gian hoạt động.

Tôi có thể sử dụng trang tổng quan để giám sát thời gian hoạt động của Nền tảng Google Maps không?

Trang tổng quan trạng thái công khai của Maps không nhằm mục đích theo dõi trạng thái của các dịch vụ GMP dựa trên SLA của GMP vì thời gian ngừng hoạt động hiển thị trên trang tổng quan có thể không phản ánh "Thời gian ngừng hoạt động" thực tế (như đã xác định trong SLA) cho dự án của bạn, đặc biệt đối với các sự cố có mức độ nghiêm trọng thấp hơn. Hơn nữa, khoảng thời gian mà bạn thấy có thể cần thêm thời gian sau khi vấn đề được giảm thiểu để xác nhận đầy đủ kết quả khắc phục.

Để theo dõi việc sử dụng API, tạo trang tổng quan và tạo cảnh báo, hãy truy cập vào trang Giám sát trên nền tảng Google Maps.

Nếu tôi không nhìn thấy sự cố trên bảng điều khiển thì sao?

Không phải khách hàng và dự án nào cũng chịu ảnh hưởng của một sự cố. Trang tổng quan chỉ phản ánh những sự cố nghiêm trọng và có phạm vi rộng. Nếu bạn gặp phải sự cố không liệt kê trên trang tổng quan, hãy liên hệ với nhóm hỗ trợ .

Tôi có thể tìm thông tin về các sự cố ngừng dịch vụ và gián đoạn dịch vụ trước đây ở đâu?

Trang Nhật ký trong Trang tổng quan trạng thái công khai trên Maps là một kho lưu trữ thông tin về các sự cố gián đoạn và ngừng hoạt động trong 365 ngày qua. Nhấp vào một sự cố để xem lại các bài đăng về sự cố trong khi sự việc đang diễn ra cũng như mọi báo cáo sự cố do Nhóm hỗ trợ công bố.

Ai cập nhật trang tổng quan?

Nhóm hỗ trợ Nền tảng Google Maps trên toàn cầu sẽ theo dõi trạng thái của các dịch vụ bằng nhiều loại tín hiệu và cập nhật trang tổng quan nếu xảy ra vấn đề trên diện rộng. Nếu cần, họ cũng sẽ đăng một báo cáo phân tích chi tiết sau khi sự cố được giải quyết.

Sự khác biệt giữa "sự cố" và "sự cố" là gì?

Mặc dù các thuật ngữ này thường có thể sử dụng thay thế cho nhau, nhưng Trang tổng quan trạng thái công cộng trên Maps và các thông tin liên lạc bên ngoài của chúng tôi dùng "sự cố" để chỉ bất kỳ thời gian dịch vụ nào bị giảm chất lượng và "sự cố" chỉ để nói đến sự suy giảm nghiêm trọng nhất, khi một dịch vụ không hoạt động đến mức khiến trải nghiệm của khách hàng trở nên vô ích.