Miércoles, 14 de diciembre del 2022
De cara al 2023, queremos presentar otra herramienta para que los usuarios puedan comprender el estado más reciente de los sistemas que afectan a la Búsqueda: el rastreo, la indexación y el servicio. Aunque las interrupciones del sistema son muy poco frecuentes, queremos ser transparentes cuando ocurran. En el pasado, hemos trabajado con nuestros ingenieros de Site Reliability Engineering (SRE) para externalizar estas interrupciones en nuestra cuenta de Twitter del Centro de la Búsqueda de Google. Hoy, presentamos el Panel de Estado de la Búsqueda de Google para comunicar el estado de la Búsqueda de ahora en adelante.
Durante los últimos dos años, hemos trabajado con nuestros SREs para mejorar la forma de hacer que la información sobre incidentes importantes sea accesible y útil en general. El objetivo era que se informaran los problemas de forma rápida, precisa y sencilla. Por este motivo, hemos lanzado un nuevo panel de estado y hemos simplificado el proceso de comunicación durante los incidentes.
En este panel, se muestran los problemas generalizados que se hayan producido en los últimos siete días, con algunos detalles y el estado actual del incidente. Un problema generalizado significa que hay un problema sistémico en un sistema de la Búsqueda que afecta a un gran número de sitios o usuarios de la Búsqueda. Por lo general, estos tipos de problemas son muy visibles de forma externa y los mecanismos de monitorización y alerta de los SREs trabajan de forma interna para marcarlos.
Este panel incluye varias funciones que quizá ya conozcas de otros paneles de estado de Google, como un feed RSS al que puedes suscribirte y una vista del historial de datos.
Cómo comunicamos los incidentes y las actualizaciones
Una vez confirmamos con los SREs que hay un problema generalizado y en curso en la Búsqueda, intentamos publicar un incidente en el panel en un plazo de una hora y actualizaciones consecutivas del incidente en un plazo de 12 horas. A diferencia de los paneles de control automatizados tradicionales, nuestro personal de todo el mundo informa de estos cambios. Normalmente, la hora de inicio del incidente es cuando logramos confirmar el problema.
Además de la actualización de estado tradicional que puedes ver, también intentaremos proporcionar más información que pueda resolver la solución. Por ejemplo, en el caso hipotético de que el servidor de nombres que gestiona la resolución de nombres de dominio de millones de sitios rechace las solicitudes de conexión del robot de Google, podríamos publicar una actualización que indique que cambiar los servidores de nombres puede mitigar el problema que experimentan los sitios. Naturalmente, con cualquier problema, seguiremos publicando actualizaciones sobre el incidente, con opciones para mitigarlo cuando estén disponibles, hasta que se resuelva.
Consideramos que un incidente se ha resuelto cuando nuestros ingenieros han hecho cambios que han terminado con el impacto en el sistema. Si bien esto significa que el sistema se encuentra en buen estado, es posible que los sitios experimenten efectos durante un tiempo hasta que se vuelvan a procesar, dependiendo del tipo de incidente.
Si quieres obtener más información sobre el panel, tenemos una página dedicada al Panel de Estado de la Búsqueda en el Centro de la Búsqueda de Google. Si quieres dejar comentarios sobre el panel, envíanos un tuit a @googlesearchc.