Googlebot pronto admitirá HTTP/2

Jueves, 17 de septiembre de 2020

A partir de noviembre de 2020, Googlebot comenzará a rastrear algunos sitios a través de HTTP/2.

Desde que los navegadores populares comenzaron a admitir la próxima revisión importante de HTTP, que se conoce como HTTP/2 o h2, los profesionales web nos han preguntado si Googlebot puede rastrear la versión actualizada y más moderna del protocolo.

Hoy anunciamos que, a partir de mediados de noviembre de 2020, Googlebot admitirá el rastreo a través de HTTP/2 para sitios determinados.

¿Qué es HTTP/2?

Como ya mencionamos, es la próxima versión principal de HTTP, el protocolo que Internet usa principalmente para transferir datos. HTTP/2 es mucho más sólido, eficiente y rápido que su predecesor, gracias a su arquitectura y las funciones que implementa para los clientes (por ejemplo, el navegador) y los servidores. Si deseas obtener más información al respecto, tenemos un artículo extenso sobre el tema HTTP/2.

¿Por qué realizamos este cambio?

En términos generales, esperamos que este cambio permita que el rastreo sea más eficaz en lo que respecta al uso de recursos del servidor. Con h2, Googlebot puede abrir una sola conexión TCP al servidor y transferir de manera eficiente varios archivos a través de este protocolo en paralelo, en lugar de necesitar varias conexiones. Cuantas menos conexiones se abran, menos recursos invertirán el servidor y Googlebot en el rastreo.

Cómo funciona

En la primera fase, rastrearemos una cantidad pequeña de sitios a través de h2 y aumentaremos de forma gradual a una cantidad mayor de sitios que puedan beneficiarse de las funciones que se admitieron en un principio, como la multiplexación de solicitudes.

Googlebot decide qué sitio rastrear a través de h2 en función de si el sitio es compatible con h2 y de si el sitio y Googlebot se beneficiarían del rastreo a través de HTTP/2. Si tu servidor admite h2 y Googlebot ya rastrea mucho contenido del sitio, es posible que ya puedas recibir la actualización de conexión. En ese caso, no es necesario que realices ninguna acción.

Si tu servidor solo admite HTTP/1.1, no hay problema. No hay desventajas explícitas si rastreas través de este protocolo. El proceso de rastreo continuará siendo el mismo, en términos de calidad y cantidad.

Cómo inhabilitar el rastreo

Nuestras pruebas preliminares no demostraron problemas ni un impacto negativo en la indexación, pero comprendemos que, por varios motivos, es posible que quieras inhabilitar el rastreo de tu sitio a través de HTTP/2. Para ello, indícale al servidor que responda con un código de estado HTTP 421 cuando Googlebot intente rastrear tu sitio a través de h2. Si no puedes hacer eso, envía un mensaje al equipo de Googlebot (aunque esta solución es temporal).

Si tienes más dudas sobre Googlebot y HTTP/2, consulta las preguntas que creímos que podrías realizar. Si no encuentras la tuya, escríbenos por Twitter y los foros de ayuda.

Preguntas que creímos que podrías realizar

¿Por qué quieren actualizar Googlebot ahora?

El software que usamos para permitir que Googlebot rastree a través de h2 ha madurado lo suficiente como para poder usarlo en la producción.

¿Debo actualizar mi servidor lo antes posible?

En realidad, depende de ti. Sin embargo, solo cambiaremos al rastreo h2 en sitios que lo admitan y que claramente se beneficiarán de él. Si no hay ningún beneficio claro para rastrear a través de h2, Googlebot seguirá rastreando a través de h1.

¿Cómo puedo probar si mi sitio admite h2?

Cloudflare tiene una entrada de blog con una gran cantidad de métodos diferentes para probar si un sitio admite h2. ¡Consúltala!

¿Cómo actualizo mi sitio a h2?

En realidad, depende de tu servidor. Te recomendamos que te comuniques con tu administrador de servidor o proveedor de hosting.

¿Cómo convenzo a Googlebot para que rastree mi sitio a través de h2?

No puedes hacerlo. Si el sitio admite h2, puede rastrearse a través de este protocolo, pero solo si es beneficioso para el sitio y Googlebot. Por ejemplo, si el rastreo a través de h2 no genera ahorros notables de recursos, simplemente continuaremos rastreando el sitio a través de HTTP/1.1.

¿Por qué no rastrean todos los sitios que admiten h2 a través de ese protocolo?

En nuestras evaluaciones, encontramos poco o ningún beneficio para ciertos sitios (por ejemplo, aquellos con una métrica de qps muy baja) cuando se rastrea a través de h2. Por lo tanto, decidimos cambiar el rastreo a h2 solo cuando se demuestre un beneficio claro para el sitio. Continuaremos evaluando las mejoras en el rendimiento, y es posible que cambiemos nuestros criterios en el futuro.

¿Cómo puedo saber si mi sitio se rastrea a través de h2?

Cuando un sitio sea apto para el rastreo a través de h2, los propietarios registrados en Search Console recibirán un mensaje en el que se indicará que parte del tráfico de rastreo podría realizarse a través de este protocolo en el futuro. También puedes verificar los registros de tu servidor (por ejemplo, en el archivo access.log si tu sitio se ejecuta en Apache).

¿Qué funciones de h2 son compatibles con Googlebot?

Googlebot admite la mayoría de las funciones que incluye h2. Algunas otras, como push desde el servidor, que pueden ser beneficiosas para la renderización, todavía se están evaluando.

¿Googlebot admite HTTP/2 de texto simple (h2c)?

No. Tu sitio web debe usar HTTPS y admitir HTTP/2, de modo que sea apto para rastrearlo a través de HTTP/2, lo que equivale a la manera en que los navegadores modernos lo procesan.

¿Googlebot usará la extensión ALPN con el fin de decidir qué versión de protocolo utilizar para el rastreo?

La negociación de protocolo de la capa de aplicación (ALPN) solo se utilizará en los sitios que admitan el rastreo a través de h2, y el único protocolo aceptado para respuestas será h2. Si el servidor responde durante el protocolo de enlace TLS con una versión de protocolo distinta de h2, Googlebot dejará de funcionar y volverá más tarde en HTTP/1.1.

¿Cómo ayudarán las diferentes funciones de h2 con el rastreo?

Entre los beneficios numerosos pero importantes de h2, se incluyen los siguientes:

  • Multiplexación y simultaneidad: Menos conexiones TCP abiertas significa menos recursos invertidos.
  • Compresión de encabezados: Los tamaños de los encabezados HTTP reducidos de forma drástica ahorrarán recursos.
  • Push desde el servidor: Esta función todavía no está habilitada; sigue en fase de evaluación. Puede ser beneficiosa para la renderización, pero, por el momento, no tenemos nada que decir al respecto.

Si deseas obtener más información sobre las funciones específicas de h2 y su relación con el rastreo, consúltanos en Twitter.

¿Googlebot rastreará más contenido o lo realizará con mayor rapidez a través de h2?

El principal beneficio de h2 es el ahorro de recursos, tanto en el servidor como en Googlebot. El rastreo mediante h1 o h2 no afecta la manera en la que se indexa el sitio. Por lo tanto, no afecta la cantidad de contenido que planeamos rastrear de tu sitio.

¿Existe algún beneficio en la clasificación para un sitio que se rastrea a través de h2?

No.