Управление инцидентами на платформе Google Карт

Жизненный цикл инцидента

Платформа Google Maps соответствует системе управления инцидентами Google Cloud Platform .

В случае сбоя или ухудшения качества обслуживания группа разработчиков продукта и группа поддержки платформы Google Maps работают вместе, чтобы разрешить инцидент и сообщить о нем вам.

жизненный цикл

Обнаружение

Google использует внутренний мониторинг и мониторинг «черного ящика» для обнаружения инцидентов и оповещения наших инженеров для расследования. Дополнительную информацию см. в главе 6 книги Site Reliability Engineering .

Если вы обнаружили инцидент, о котором еще не сообщалось в системе отслеживания проблем , перейдите на страницу поддержки платформы Google Maps «Создайте обращение» (в консоли Google Cloud) и создайте новый запрос в службу поддержки.

Первоначальный ответ

Когда Google обнаруживает инцидент, служба поддержки связывается с вами. Первоначальное уведомление об инциденте часто бывает скудным, часто в нем упоминается только рассматриваемый продукт вместе с ключевыми симптомами. Это потому, что мы уделяем приоритетное внимание быстрому уведомлению, а не деталям. По мере того, как мы узнаем больше, дополнительная информация предоставляется в последующих обновлениях.

ответ

Каналы связи при инцидентах

Чтобы предоставить необходимый объем информации, команда поддержки платформы Google Карт предлагает различные каналы связи с инцидентами, в зависимости от масштаба и серьезности проблемы:

Панель общедоступного статуса Карт — это первое место, где можно проверить, когда вы обнаружите, что проблема затрагивает вас. На информационной панели показаны инциденты, которые затрагивают многих клиентов, поэтому, если вы видите инцидент в списке, он, скорее всего, связан с вашей проблемой. Чтобы указать серьезность, на информационной панели состояния инциденты помечаются как сбой в обслуживании, сбой или информация.

Группа уведомлений платформы Google Maps — это общедоступная группа Google, в которой сообщается обо всех широкомасштабных сбоях в работе, а также о других технических обновлениях API платформы Google Maps. Все члены группы получат уведомление по электронной почте при первоначальном обнаружении сбоя с последующими обновлениями до тех пор, пока проблема не будет решена.

Карточка состояния платформы Карт — это информационное сообщение, которое всегда отображается в разделе «Поддержка Карт» облачной консоли и показывает текущий статус API и сервисов платформы Карт. При возникновении активного инцидента появится сообщение с указанием затронутого продукта и ссылкой на панель общедоступного статуса Карт, где можно просмотреть активные инциденты.

отключение

Система отслеживания проблем содержит список всех известных инцидентов. Вы можете просматривать открытые инциденты, следить за их ходом, подписавшись на них, и добавлять комментарии, которые помогут нашим командам расследовать их. Ссылку на систему отслеживания проблем также можно найти в документации поддержки платформы Google Maps.

Заявки на поддержку используются, если проблема может быть изолирована от ваших проектов или затрагивает ограниченное число клиентов. Если об инциденте не сообщалось, но проблема по-прежнему возникает, перейдите на страницу поддержки платформы Google Maps «Создать обращение» (в облачной консоли) и создайте новый запрос в службу поддержки.

Расследование

Группы разработчиков продуктов отвечают за расследование коренных причин инцидентов. Управление инцидентами часто выполняется инженерами по обеспечению надежности объекта, но в зависимости от ситуации и продукта это могут делать инженеры-программисты или другие специалисты. Дополнительную информацию см. в главе 12 Книги по обеспечению надежности объекта .

Смягчение/исправление

Проблема считается исправленной только в том случае, если были внесены изменения, которые, как уверен Google, положат конец ее воздействию на неопределенный срок. Например, исправлением может быть откат изменения, вызвавшего инцидент.

Пока инцидент продолжается, группы поддержки и продуктов постараются устранить проблему. Смягчение происходит, когда влияние или масштаб проблемы можно уменьшить, например, временно предоставив дополнительные ресурсы службе, испытывающей перегрузку.

Если меры по устранению проблем не найдены, по возможности, служба поддержки найдет и сообщит об обходных путях . Обходные пути — это шаги, которые вы можете предпринять для решения основной проблемы, несмотря на инцидент. Обходным решением может быть использование других настроек для вызова API, чтобы избежать проблемного пути кода.

Следовать за

Пока инцидент продолжается, служба поддержки регулярно предоставляет обновления. Обновления обычно предоставляют:

  • Дополнительная информация об инциденте, например сообщения об ошибках, какие функции затронуты и насколько широко он распространен.
  • Прогресс в смягчении последствий, включая любые обходные пути.
  • Сроки связи, адаптированные к инциденту.
  • Изменения статуса, например, при устранении инцидента.

Посмертное

Все инциденты приводят к посмертному внутреннему анализу (после инцидента), позволяющему полностью понять инцидент и определить улучшения надежности, которые может сделать Google. Эти улучшения затем отслеживаются и реализуются. Дополнительную информацию о вскрытиях в Google см. в главе 15 книги Site Reliability Engineering Book .

Отчет об инциденте

Когда инциденты имеют очень широкое и серьезное воздействие, Google предоставляет отчеты об инцидентах, в которых описываются симптомы, последствия, первопричина, способы устранения и предотвращения инцидентов в будущем. Как и в случае с вскрытиями, мы уделяем особое внимание шагам, которые мы предпринимаем, чтобы извлечь уроки из этой проблемы и повысить надежность. Цель Google при написании и публикации аналитических отчетов — быть прозрачными и демонстрировать нашу приверженность созданию стабильных услуг для наших клиентов.

Часто задаваемые вопросы

Я хочу получать уведомления о продолжающихся сбоях в работе сети. Что я должен делать?

  • Присоединяйтесь к группе уведомлений платформы Google Maps, чтобы получать уведомления о текущих проблемах и следить за развитием инцидента в режиме реального времени. Эта группа также поможет вам быть в курсе анонсов продуктов и платформ.
  • Используйте ссылки RSS-канал или JSON History в нижней части панели общедоступного статуса Карт, чтобы просмотреть ленту текущих и прошлых инцидентов. Каждое сообщение на панели управления вызывает публикацию в ленте. Чтобы держать вас в курсе, каждое сообщение в ленте будет включать все сообщения и обновления, относящиеся к соответствующему событию на панели мониторинга. Таким образом, вам не придется копаться в истории ленты, чтобы понять, как идут дела. RSS-каналы публикуются в формате XML. Расширения браузера, такие как RSS Subscription Extension (от Google), позволяют просматривать содержимое канала и подписываться через вашу любимую программу чтения RSS. История JSON — это веб-канал JSON о прошлых инцидентах. Ряд программных библиотек и веб-платформ поддерживают распространение контента через JSON Feed.

Какую информацию о состоянии я могу найти на главной странице информационной панели?

Панель общедоступного статуса Google Maps предоставляет информацию об API и сервисах, которые являются частью платформы Google Maps. В случае активного инцидента здесь будет опубликована информация по каждому конкретному API и сервису на платформе Google Maps. Всегда отображаются индикаторы состояния, отражающие общее состояние каждого API и службы по одному из следующих параметров:

  • Отключение службы : Производственная система или служба не работают. Обходной путь недоступен или его нелегко реализовать.
  • Нарушение обслуживания : Производственная система или услуга частично повреждены и/или не работают должным образом. Обходной путь существует.
  • Служебная информация : Производственная система или услуга частично повреждены и/или не работают должным образом. В целом услуга по-прежнему доступна, влияние незначительное и затрагивает небольшое количество пользователей.
  • Доступно : Сервис полностью функционален и работает должным образом.

Панель мониторинга работает в режиме реального времени?

Панель общедоступного статуса Карт предназначена для предоставления статуса продуктов, которые общедоступны и на которые распространяется соглашение об уровне обслуживания платформы Google Maps, практически в режиме реального времени. Все инциденты сначала проверяются перед публикацией; поэтому с момента их первого обнаружения может пройти небольшая задержка. Таким образом, панель мониторинга не должна использоваться для отслеживания времени безотказной работы.

Могу ли я использовать панель управления для отслеживания времени безотказной работы платформы Google Maps?

Панель общедоступного статуса Карт не предназначена для мониторинга состояния сервисов GMP на основе соглашения об уровне обслуживания GMP, поскольку длительность простоев, показанная на панели мониторинга, может не отражать фактическое «время простоя» (как определено в соглашении об уровне обслуживания) для вашего проекта, особенно для инциденты серьезности. Кроме того, указанная продолжительность может включать дополнительное время после устранения проблемы, чтобы полностью подтвердить исправление.

Чтобы отслеживать использование API, создавать информационные панели и оповещения, посетите раздел «Мониторинг платформы Google Maps» .

Что делать, если я не вижу инцидента на информационной панели?

Не все клиенты и проекты страдают от каждого инцидента. На приборной панели отражаются только обширные и серьезные инциденты. Если у вас возникла проблема, которой нет на панели управления, обратитесь в службу поддержки .

Где я могу найти информацию о прошлых сбоях и отключениях услуг?

Страница «История» на панели общедоступного статуса Карт представляет собой хранилище сбоев и отключений за последние 365 дней. Нажмите на инцидент, чтобы просмотреть сообщения об инциденте, пока он происходил, а также любые отчеты об инцидентах, опубликованные службой поддержки.

Кто обновляет панель?

Глобальная группа поддержки платформы Google Maps отслеживает состояние сервисов, используя множество различных типов сигналов, и обновляет панель мониторинга в случае широко распространенной проблемы. При необходимости они также опубликуют подробный аналитический отчет после разрешения инцидента.

В чем разница между «инцидентом» и «отключением»?

Хотя эти термины часто используются как синонимы, в информационной панели состояния Maps Public и в наших внешних коммуникациях термин «инцидент» используется для обозначения любого периода ухудшения качества обслуживания, а термин «отключение» — для обозначения только самого серьезного нарушения, когда служба не работает до такой степени, что это делает опыт наших клиентов практически бесполезным.