Quản lý sự cố trên nền tảng Google Maps

Vòng đời của một sự cố

Nền tảng Google Maps tuân thủ khung Quản lý sự cố của Google Cloud Platform.

Khi xảy ra sự cố ngừng hoạt động hoặc chất lượng dịch vụ bị giảm sút, nhóm kỹ thuật sản phẩm và nhóm Hỗ trợ nền tảng Google Maps sẽ phối hợp giải quyết sự cố và thông báo cho bạn.

vòng đời

Phát hiện

Google sử dụng tính năng giám sát nội bộ và hộp đen để phát hiện sự cố và kích hoạt cảnh báo cho các kỹ sư của chúng tôi để điều tra. Để biết thêm thông tin, hãy xem Chương 6 của sách Kỹ thuật về độ tin cậy của trang web.

Nếu bạn phát hiện một sự cố chưa được báo cáo trong Công cụ theo dõi lỗi, hãy truy cập vào trang Tạo yêu cầu hỗ trợ của Nền tảng Google Maps (trong Google Cloud Console) và tạo một yêu cầu hỗ trợ mới.

Phản hồi ban đầu

Khi Google phát hiện một sự cố, Nhóm hỗ trợ sẽ chủ trì việc trao đổi với bạn. Thông báo ban đầu về một sự cố thường rất ít, thường chỉ đề cập đến sản phẩm có liên quan cùng với các triệu chứng chính. Lý do là chúng tôi ưu tiên thông báo nhanh hơn thông tin chi tiết. Khi chúng tôi tìm hiểu thêm, chúng tôi sẽ cung cấp thêm thông tin chi tiết trong các bản cập nhật tiếp theo.

phản hồi

Kênh liên lạc về sự cố

Để cung cấp lượng thông tin phù hợp, Nhóm hỗ trợ Nền tảng Google Maps cung cấp nhiều kênh liên lạc về sự cố, tuỳ thuộc vào phạm vi và mức độ nghiêm trọng của sự cố:

Trang tổng quan về trạng thái công khai của Maps là nơi đầu tiên bạn nên kiểm tra khi phát hiện vấn đề đang ảnh hưởng đến mình. Trang tổng quan này cho thấy các sự cố ảnh hưởng đến nhiều khách hàng. Vì vậy, nếu bạn thấy một sự cố được liệt kê, thì có thể sự cố đó có liên quan đến vấn đề của bạn. Để cho biết mức độ nghiêm trọng, trang tổng quan về trạng thái sẽ đánh dấu các sự cố là sự cố ngừng dịch vụ, sự cố gián đoạn hoặc thông tin.

Nhóm thông báo về Nền tảng Google Maps là một nhóm công khai của Google, nơi tất cả các sự cố ngừng hoạt động trên diện rộng đều được báo cáo, ngoài các thông tin cập nhật kỹ thuật khác về API của Nền tảng Google Maps. Tất cả thành viên trong nhóm sẽ nhận được thông báo qua email khi sự cố ngừng hoạt động được phát hiện ban đầu, cùng với các thông tin cập nhật tiếp theo cho đến khi sự cố được giải quyết.

Thẻ trạng thái của Nền tảng Maps là một thông báo thông tin luôn xuất hiện trong phần Hỗ trợ Maps của Cloud Console, cho biết trạng thái hiện tại của các API và dịch vụ của Nền tảng Maps. Khi có sự cố đang diễn ra, bạn sẽ thấy một thông báo xác định sản phẩm bị ảnh hưởng và bao gồm đường liên kết đến Trang tổng quan công khai về trạng thái của Maps, nơi bạn có thể xem các sự cố đang diễn ra.

sự cố ngừng dịch vụ

Trình theo dõi lỗi chứa danh sách tham khảo về tất cả các sự cố đã biết. Bạn có thể xem các sự cố đang mở, theo dõi tiến trình xử lý sự cố bằng cách đăng ký sự cố và thêm bình luận để giúp các nhóm của chúng tôi điều tra. Bạn cũng có thể tìm thấy đường liên kết đến Công cụ theo dõi lỗi trong tài liệu hỗ trợ của Nền tảng Google Maps.

Bạn nên sử dụng trường hợp hỗ trợ nếu vấn đề có thể chỉ xảy ra với(các) dự án của bạn hoặc chỉ ảnh hưởng đến một số ít khách hàng. Nếu bạn chưa khai báo sự cố nhưng vẫn gặp vấn đề, hãy truy cập vào trang Tạo yêu cầu hỗ trợ của Nền tảng Google Maps (trong Google Cloud Console) rồi tạo một yêu cầu hỗ trợ mới.

Điều tra

Các nhóm kỹ thuật sản phẩm chịu trách nhiệm điều tra nguyên nhân gốc rễ của sự cố. Kỹ sư Chất lượng cao của trang web thường thực hiện việc quản lý sự cố, nhưng có thể là kỹ sư phần mềm hoặc các kỹ sư khác, tuỳ thuộc vào tình huống và sản phẩm. Để biết thêm thông tin, hãy xem Chương 12 của Sách kỹ thuật về độ tin cậy của trang web.

Giải pháp giảm thiểu/Khắc phục

Vấn đề chỉ được coi là đã khắc phục khi Google chắc chắn rằng thay đổi đã thực hiện sẽ chấm dứt tác động vĩnh viễn. Ví dụ: bản sửa lỗi có thể là việc khôi phục một thay đổi đã kích hoạt sự cố.

Trong khi sự cố đang diễn ra, Nhóm hỗ trợ và Nhóm sản phẩm sẽ cố gắng giảm thiểu vấn đề. Việc giảm thiểu xảy ra khi có thể giảm mức tác động hoặc phạm vi của một vấn đề, chẳng hạn như bằng cách tạm thời cung cấp thêm tài nguyên cho một dịch vụ đang bị quá tải.

Nếu không tìm thấy biện pháp giảm thiểu nào, khi có thể, Nhóm hỗ trợ sẽ tìm và thông báo giải pháp. Giải pháp là các bước bạn có thể thực hiện để giải quyết nhu cầu cơ bản bất kể sự cố là gì. Giải pháp có thể là sử dụng các chế độ cài đặt khác nhau cho lệnh gọi API để tránh đường dẫn mã có vấn đề.

Liên hệ sau sự kiện

Trong khi sự cố vẫn tiếp diễn, Nhóm hỗ trợ sẽ thường xuyên cập nhật thông tin. Bản cập nhật thường cung cấp:

  • Thông tin khác về sự cố, chẳng hạn như thông báo lỗi, những tính năng bị ảnh hưởng và mức độ phổ biến của sự cố.
  • Tiến trình giảm thiểu, bao gồm cả mọi giải pháp.
  • Tiến trình thông báo, được điều chỉnh cho phù hợp với sự cố.
  • Thay đổi về trạng thái, chẳng hạn như khi một sự cố được khắc phục.

Postmortem

Tất cả sự cố đều dẫn đến một phân tích nội bộ sau sự cố (post-incident) để hiểu rõ sự cố và xác định những biện pháp cải thiện độ tin cậy mà Google có thể thực hiện. Sau đó, các điểm cải tiến này sẽ được theo dõi và triển khai. Để biết thêm thông tin về hoạt động phân tích sự cố sau khi xảy ra sự cố tại Google, hãy xem Chương 15 của Sách kỹ thuật về độ tin cậy của trang web.

Báo cáo sự cố

Khi sự cố có tác động rất rộng và nghiêm trọng, Google sẽ cung cấp báo cáo sự cố nêu rõ các triệu chứng, tác động, nguyên nhân gốc rễ, biện pháp khắc phục và cách ngăn chặn sự cố trong tương lai. Cũng như với các bài đánh giá sau sự cố, chúng tôi đặc biệt chú ý đến các bước mà chúng tôi thực hiện để rút kinh nghiệm từ vấn đề và cải thiện độ tin cậy. Mục tiêu của Google khi viết và phát hành báo cáo sau sự cố là minh bạch và thể hiện cam kết của chúng tôi trong việc xây dựng các dịch vụ ổn định cho khách hàng.

Câu hỏi thường gặp

Tôi muốn nhận thông báo khi có sự cố ngừng dịch vụ đang diễn ra. Tôi cần làm gì?

  • Hãy tham gia nhóm Thông báo về Nền tảng Google Maps để nhận thông báo về các vấn đề đang diễn ra và theo dõi tiến trình của sự cố theo thời gian thực. Nhóm này cũng sẽ giúp bạn cập nhật thông tin về sản phẩm và nền tảng.
  • Sử dụng đường liên kết Nguồn cấp dữ liệu RSS hoặc Nhật ký JSON ở cuối Trang tổng quan công khai về trạng thái của Maps để xem nguồn cấp dữ liệu về các sự cố hiện tại và trước đây. Mỗi bài đăng trên Trang tổng quan sẽ kích hoạt một bài đăng trên nguồn cấp dữ liệu. Để bạn luôn nắm bắt thông tin mới nhất, mỗi bài đăng trên nguồn cấp dữ liệu sẽ bao gồm tất cả thông báo và nội dung cập nhật liên quan đến sự kiện tương ứng trên Trang tổng quan. Nhờ đó, bạn không cần phải tìm hiểu nhật ký nguồn cấp dữ liệu để nắm được tiến trình. Nguồn cấp dữ liệu RSS được phát hành ở định dạng XML. Các tiện ích trình duyệt như Tiện ích đăng ký RSS (của Google) cho phép bạn xem trước nội dung của nguồn cấp dữ liệu và đăng ký thông qua trình đọc RSS mà bạn yêu thích. Nhật ký JSON là một Nguồn cấp dữ liệu web JSON về các sự cố trước đây. Một loạt thư viện phần mềm và khung web hỗ trợ việc phân phối nội dung thông qua Nguồn cấp dữ liệu JSON.

Tôi có thể tìm thấy loại thông tin trạng thái nào trên trang chủ của trang tổng quan?

Trang tổng quan về trạng thái công khai của Google Maps cung cấp thông tin về các API và dịch vụ thuộc Nền tảng Google Maps. Nếu có sự cố đang diễn ra, thông tin sẽ được đăng tại đây cho từng API và dịch vụ cụ thể trong Nền tảng Google Maps. Các chỉ báo trạng thái luôn hiển thị, thể hiện tình trạng tổng thể của từng API và dịch vụ, từ một trong những trạng thái sau:

  • Sự cố ngừng dịch vụ: Một hệ thống hoặc dịch vụ sản xuất đang ngừng hoạt động. Không có giải pháp hoặc giải pháp không dễ triển khai.
  • Sự cố gián đoạn dịch vụ: Một hệ thống hoặc dịch vụ sản xuất bị suy giảm một phần và/hoặc không hoạt động như mong đợi. Có giải pháp.
  • Thông tin dịch vụ: Một hệ thống sản xuất hoặc dịch vụ bị suy giảm một phần và/hoặc không hoạt động như mong đợi. Nhìn chung, dịch vụ vẫn hoạt động, mức độ tác động không đáng kể và chỉ ảnh hưởng đến một số ít người dùng.
  • Có sẵn: Dịch vụ hoạt động đầy đủ và theo dự kiến.

Trang tổng quan có theo thời gian thực không?

Trang tổng quan trạng thái công khai của Maps nhằm cung cấp trạng thái gần như theo thời gian thực của các sản phẩm thường có sẵn và thuộc phạm vi của Thoả thuận mức độ cung cấp dịch vụ (SLA) của Nền tảng Google Maps. Tất cả sự cố đều được xác minh trước khi đăng; vì vậy, thời gian có thể bị chậm trễ đôi chút so với thời điểm sự cố được phát hiện lần đầu. Do đó, bạn không nên sử dụng trang tổng quan này cho mục đích theo dõi thời gian hoạt động.

Tôi có thể sử dụng trang tổng quan để theo dõi thời gian hoạt động của Google Maps Platform không?

Trang tổng quan trạng thái công khai của Maps không dùng để theo dõi trạng thái của các dịch vụ GMP dựa trên Thoả thuận mức độ cung cấp dịch vụ (SLA) của GMP vì thời lượng ngừng hoạt động hiển thị trong trang tổng quan có thể không phản ánh "Thời gian ngừng hoạt động" thực tế (như được xác định trong SLA) cho dự án của bạn, đặc biệt là đối với các sự cố có mức độ nghiêm trọng thấp hơn. Ngoài ra, thời lượng hiển thị có thể bao gồm cả thời gian bổ sung sau khi vấn đề được giảm thiểu để xác nhận đầy đủ việc khắc phục.

Để theo dõi mức sử dụng API, tạo trang tổng quan và tạo cảnh báo, hãy truy cập vào phần Theo dõi Nền tảng Google Maps.

Nếu tôi không thấy sự cố trên trang tổng quan thì sao?

Không phải sự cố nào cũng ảnh hưởng đến tất cả khách hàng và dự án. Chỉ những sự cố nghiêm trọng và rộng rãi mới được phản ánh trên trang tổng quan. Nếu bạn gặp phải vấn đề không có trong trang tổng quan, hãy liên hệ với Nhóm hỗ trợ .

Tôi có thể tìm thông tin về các sự cố gián đoạn và ngừng dịch vụ trước đây ở đâu?

Trang Nhật ký trong Trang tổng quan công khai về trạng thái của Maps là kho lưu trữ các sự cố gián đoạn và ngừng hoạt động trong 365 ngày qua. Nhấp vào một sự cố để xem các bài đăng liên quan đến sự cố đó trong thời gian sự cố tiếp diễn, cũng như mọi báo cáo sự cố do Nhóm hỗ trợ phát hành.

Ai cập nhật trang tổng quan?

Nhóm hỗ trợ Nền tảng Google Maps trên toàn cầu theo dõi trạng thái của các dịch vụ bằng nhiều loại tín hiệu và cập nhật trang tổng quan trong trường hợp xảy ra vấn đề diện rộng. Nếu cần, họ cũng sẽ đăng một báo cáo phân tích chi tiết sau khi sự cố được giải quyết.

Sự khác biệt giữa "sự cố" và "sự cố ngừng hoạt động" là gì?

Mặc dù các thuật ngữ này thường được dùng thay thế cho nhau, nhưng Trang tổng quan công khai về trạng thái của Maps và thông tin liên lạc bên ngoài của chúng tôi sử dụng "sự cố" để chỉ bất kỳ khoảng thời gian nào mà dịch vụ bị giảm chất lượng và "sự cố ngừng hoạt động" chỉ để chỉ sự suy giảm nghiêm trọng nhất, trong đó dịch vụ không hoạt động đến mức khiến trải nghiệm của khách hàng trở nên vô dụng.