Próximamente, el robot de Google leerá HTTP/2

Jueves, 17 de septiembre del 2020

A partir de noviembre del 2020, el robot de Google empezará a rastrear algunos sitios a través de HTTP/2.

Cuando los principales navegadores empezaron a admitir la siguiente gran revisión de HTTP, HTTP/2 o h2, los profesionales de la Web nos preguntaron si el robot de Google podía rastrear la versión actualizada y más avanzada del protocolo.

Hoy anunciamos que, a partir de mediados de noviembre del 2020, el robot de Google podrá rastrear algunos sitios con HTTP/2.

¿Qué es HTTP/2?

Como hemos dicho, es la siguiente versión principal de HTTP, el protocolo que usa Internet para transferir datos. HTTP/2 es mucho más seguro, eficiente y rápido que su predecesor, debido a su arquitectura y a las funciones que implementa para los clientes (por ejemplo, tu navegador) y los servidores. Si quieres obtener más información al respecto, consulta nuestro artículo sobre HTTP/2.

¿Por qué se ha hecho este cambio?

Por lo general, esperamos que este cambio contribuya a que el rastreo sea más eficiente en términos del uso de recursos del servidor. Con h2, el robot de Google puede abrir una sola conexión TCP al servidor y transferir de forma eficiente varios archivos a la vez, en lugar de requerir varias conexiones. Cuantas menos conexiones haya, menos recursos tendrán que usar el servidor y el robot de Google al rastrear.

¿Cómo funciona?

En la primera fase, rastrearemos un número reducido de sitios con h2, e iremos aumentando gradualmente el número de sitios que podrán beneficiarse de las funciones admitidas inicialmente, como la solicitud de multiplexado.

El robot de Google decide qué sitio debe rastrear con h2 en función de si es compatible con esta versión y de si el sitio y el robot de Google se beneficiarían de este tipo de rastreo. Si tu servidor admite h2 y el robot de Google ya rastrea una gran parte de tu sitio, es posible que ya cumplas los requisitos para la actualización de la conexión y no tengas que hacer nada.

Si tu servidor solo admite HTTP/1.1, no pasa nada. Este tipo de rastreo no tiene ningún inconveniente y seguirá teniendo la misma calidad y frecuencia.

¿Cómo inhabilitarlo?

En las pruebas preliminares que hemos hecho, no se han detectado problemas ni efectos negativos en la indexación, pero es comprensible que quieras inhabilitar el rastreo de tu sitio mediante HTTP/2 por varios motivos. Para ello, indica al servidor que responda con un código de estado HTTP 421 cuando el robot de Google intente rastrear tu sitio con h2. Si no puedes hacerlo, envía un mensaje al equipo del robot de Google, pero ten en cuenta que esta solución es temporal.

Si tienes más dudas sobre el robot de Google y HTTP/2, consulta las respuestas a las preguntas que te pueden surgir. Si no encuentras la respuesta a tu pregunta, escríbenos por Twitter y en los foros de ayuda.

Preguntas que te pueden surgir

¿Por qué se actualiza ahora el robot de Google?

El software que utilizamos para permitir que el robot de Google rastree el contenido con h2 ha avanzado lo suficiente como para que se pueda utilizar en la producción.

¿Debo actualizar mi servidor lo antes posible?

Como tú quieras. Ten en cuenta que solo cambiaremos el modo de rastreo en los sitios que admitan h2 y que se puedan beneficiar claramente de ello. Si el rastreo con h2 no aporta beneficios claros, el robot de Google seguirá rastreando con h1.

¿Cómo puedo saber si mi sitio admite h2?

En Cloudflare puedes encontrar una entrada de blog con varios métodos para comprobar si un sitio es compatible con la tecnología h2.

¿Cómo puedo actualizar mi sitio a la versión h2?

Depende de tu servidor. Te recomendamos que te pongas en contacto con el administrador de tu servidor o con tu proveedor de alojamiento.

¿Cómo puedo convencer al robot de Google para que use h2 en mi sitio?

No puedes. Si el sitio admite h2, se podrá rastrear a través de h2, pero solo si el sitio y el robot de Google pueden beneficiarse de ello. Por ejemplo, si el rastreo con h2 no se traduce en un ahorro de recursos visible, seguiremos rastreando el sitio con HTTP/1.1.

¿Por qué no se rastrean todos los sitios que admiten h2 de esta forma?

En nuestras evaluaciones, hemos visto que algunos sitios se benefician poco o nada (por ejemplo, los que tienen CPS muy bajos) al rastrearlos con h2. Por este motivo, hemos decidido cambiar el rastreo a h2 solo cuando el beneficio para el sitio sea claro. Seguiremos evaluando las mejoras de rendimiento y puede que vayamos adaptando nuestros criterios en el futuro.

¿Cómo puedo saber si mi sitio se rastrea con h2?

Cuando un sitio cumple los requisitos para rastrearse con h2, el propietario del sitio registrado en Search Console recibirá un mensaje en el que se le indicará que es posible que parte del tráfico de rastreo pase a ser con h2. También puedes comprobarlo en los registros del servidor (por ejemplo, en el archivo access.log, si el sitio se ejecuta en Apache).

¿Qué funciones de h2 son compatibles con el robot de Google?

El robot de Google es compatible con la mayoría de las funciones que ofrece h2. Aún se están evaluando algunas funciones que pueden ser útiles para el renderizado, como el push de servidor.

¿El robot de Google admite texto sin formato HTTP/2 (h2c)?

No. Tu sitio web debe usar HTTPS y admitir HTTP/2 para que se pueda rastrear mediante HTTP/2. Este proceso equivale al modo en que los navegadores modernos lo gestionan.

¿El robot de Google va a utilizar la extensión ALPN para decidir qué versión del protocolo usa para el rastreo?

La negociación del protocolo de la capa de la aplicación (ALPN) solo se utilizará para los sitios que se puedan rastrear mediante h2, y el único protocolo que se aceptará para las respuestas será h2. Si el servidor responde durante el handshake de TLS con una versión de protocolo que no sea h2, el robot de Google volverá a intentarlo más tarde a través de HTTP/1.1.

¿Cómo ayudan las distintas funciones de h2 al rastreo?

Estas son algunas de las principales ventajas de h2:

  • Multiplexación y simultaneidad: al tener menos conexiones TCP abiertas, se reduce la cantidad de recursos que se utilizan.
  • Compresión de encabezados: los tamaños de encabezado HTTP se reducen considerablemente, lo que permite ahorrar recursos.
  • Push de servidor: esta función aún no está habilitada porque todavía está en fase de evaluación. Puede que este método también sea útil para renderizar páginas, pero por el momento no tenemos datos específicos al respecto.

Si quieres obtener más información sobre las funciones específicas de h2 y su relación con el rastreo, pregúntanos en Twitter.

¿El robot de Google podrá rastrear más datos o más rápidamente con h2?

La principal ventaja de h2 es que permite ahorrar recursos, tanto para el servidor como para el robot de Google. Independientemente de si tu sitio se rastrea con h1 o h2, esto no afectará a la indexación y tampoco a la cantidad de información que se rastrea.

¿Los sitios que se rastrean con h2 tienen alguna ventaja en el posicionamiento?

No.