Mercredi 14 décembre 2022
À l'approche de 2023, nous souhaitons lancer un autre outil public permettant de déterminer l'état actuel des systèmes qui affectent la recherche : l'exploration, l'indexation et la diffusion. Bien que les perturbations système soient extrêmement rares, nous voulons être transparents lorsqu'elles se produisent. Par le passé, nos ingénieurs en fiabilité des sites (SRE) étaient chargés de communiquer ces perturbations au public sur notre compte Twitter Google Search Central. Aujourd'hui, nous lançons le tableau de bord d'état de la recherche Google, qui permettra de communiquer l'état de la recherche à partir de maintenant.
Ces deux dernières années, nous avons collaboré avec nos ingénieurs SRE pour améliorer l'accessibilité et l'utilité des informations sur les incidents majeurs. L'objectif était de pouvoir signaler les problèmes de manière rapide, précise et simple. Nous avons donc lancé un nouveau tableau de bord d'état et avons simplifié le processus de communication en cas d'incident.
Ce tableau de bord signale les problèmes fréquents survenus au cours des sept derniers jours, avec des informations détaillées et l'état actuel de l'incident. Un problème généralisé indique un problème systémique lié à un système de recherche qui affecte un grand nombre de sites ou d'utilisateurs de la recherche Google. En général, ces types de problèmes affectent directement les internautes, et les mécanismes de surveillance et d'alerte des ingénieurs SRE agissent en arrière-plan pour les signaler.
Le tableau de bord comprend plusieurs fonctionnalités que vous connaissez peut-être déjà dans d'autres tableaux de bord d'état Google, comme un flux RSS auquel vous pouvez vous abonner et une vue des données historiques.
Communication des incidents et des informations
Une fois que nous avons confirmé auprès des ingénieurs SRE qu'un problème généralisé a survenu dans la recherche Google, nous publions un incident dans le tableau de bord dans un délai d'une heure, puis nous communiquons régulièrement sur la progression de cet incident dans les 12 heures qui suivent. Contrairement à un tableau de bord automatisé classique, les informations publiées dans ce cas sont fournies directement par nos collaborateurs à travers le monde. L'heure de début de l'incident correspond généralement à la date à laquelle nous avons réussi à confirmer le problème.
Outre la notification de l'état des systèmes, nous essaierons également de fournir des informations plus détaillées susceptibles de résoudre le problème. Par exemple, dans l'hypothèse où le serveur qui gère la résolution de noms de domaine pour des millions de sites refuserait les requêtes de connexion de Googlebot, nous pouvons préciser que la modification des serveurs de noms peut atténuer le problème rencontré par les sites. Comme c'est le cas avec tous les problèmes, nous continuerons à publier des informations sur l'incident, ainsi que les mesures d'atténuation éventuelles, jusqu'à ce que celui-ci soit résolu.
Nous considérons qu'un incident a été résolu lorsque nos ingénieurs ont apporté des modifications qui n'ont plus d'impact sur le système. Le système est redevenu opérationnel. Toutefois, les sites peuvent continuer à en subir les conséquences pendant un certain temps, tant qu'ils n'ont pas fait l'objet d'une action spécifique, en fonction du type d'incident.
Pour en savoir plus sur le tableau de bord, consultez notre page dédiée au tableau de bord d'état de la recherche dans Google Search Central. Si vous souhaitez nous faire part de vos commentaires sur le tableau de bord, envoyez-nous un tweet à @googlesearchc.