Diciembre de rastreo: cómo y por qué rastrea Googlebot

Martes, 3 de diciembre de 2024

Es posible que hayas escuchado que la Búsqueda de Google debe realizar algunos procesos antes de que una página web pueda aparecer en los resultados de la Búsqueda de Google. Uno de estos pasos se denomina rastreo. Googlebot, un programa que se ejecuta en los servidores de Google y recupera una URL y controla elementos como errores de red, redireccionamientos y otras pequeñas complicaciones que podría encontrar mientras se abre camino en la Web, realiza el rastreo de la Búsqueda de Google. Sin embargo, hay algunos detalles de los que no se suele hablar. Cada semana de este mes, exploraremos algunos de esos detalles, ya que pueden tener un efecto significativo en la forma en que se rastrean tus sitios.

Hagamos un breve repaso: ¿qué es el rastreo?

El rastreo es el proceso de descubrir páginas web nuevas, volver a visitar páginas actualizadas y descargarlas. En resumen, Googlebot obtiene una URL, envía una solicitud HTTP al servidor que la aloja y, luego, controla la respuesta de ese servidor, posiblemente siguiendo redireccionamientos, controlando errores y pasando el contenido de la página al sistema de indexación de Google.

Sin embargo, las páginas web modernas no son solo HTML puro, ¿qué sucede con los otros recursos que conforman una página? ¿Cómo afecta el rastreo de estos recursos al "presupuesto de rastreo"? ¿Estos recursos se pueden almacenar en caché en Google? ¿Hay alguna diferencia entre las URLs que no se rastrearon antes y las que ya están indexadas? En esta publicación, responderemos estas preguntas y muchas más.

Googlebot y recursos de páginas de rastreo

Más allá del HTML, los sitios web modernos usan una combinación de diferentes tecnologías, como JavaScript y CSS, para ofrecer a los usuarios experiencias vibrantes y funcionalidades útiles. Cuando se accede a esas páginas con un navegador, este primero descarga la URL superior que aloja los datos necesarios para comenzar a compilar la página para el usuario: el código HTML de la página. Estos datos iniciales pueden contener referencias a recursos como JavaScript y CSS, pero también imágenes y videos que el navegador volverá a descargar para, finalmente, construir la página final que se le presentará al usuario.

Google hace exactamente lo mismo, aunque de forma ligeramente diferente:

Googlebot descarga los datos iniciales de la URL superior, el código HTML de la página.
Googlebot pasa los datos recuperados al Servicio de procesamiento web (WRS).
Con Googlebot, WRS descarga los recursos a los que se hace referencia en los datos originales.
El WRS construye la página con todos los recursos descargados como lo haría el navegador de un usuario.

En comparación con un navegador, el tiempo entre cada paso puede ser mucho más largo debido a las restricciones de programación, como la carga percibida del servidor que aloja los recursos necesarios para renderizar una página. Y aquí es donde el presupuesto de rastreo entra en la conversación.

El rastreo de los recursos necesarios para renderizar una página reducirá el presupuesto de rastreo del nombre de host que aloja el recurso. Para mejorar esta situación, WRS intenta almacenar en caché todos los recursos (JavaScript y CSS) a los que se hace referencia en las páginas que renderiza. El tiempo de vida de la caché de WRS no se ve afectado por las directivas de almacenamiento en caché de HTTP. En cambio, WRS almacena en caché todo durante un máximo de 30 días, lo que ayuda a preservar el presupuesto de rastreo del sitio para otras tareas de rastreo.

Desde la perspectiva de los propietarios del sitio, administrar cómo y qué recursos se rastrean puede influir en el presupuesto de rastreo del sitio. Te recomendamos que hagas lo siguiente:

Usa la menor cantidad de recursos posible para ofrecer a los usuarios una experiencia excelente. Cuanto menos recursos se necesiten para renderizar una página, menos presupuesto de rastreo se gastará durante la renderización.
Usa los parámetros de prevención de almacenamiento en caché con precaución: Si cambian las URLs de los recursos, es posible que Google deba volver a rastrearlos, incluso si su contenido no cambió. Esto, por supuesto, consumirá el presupuesto de rastreo.
Aloja los recursos en un nombre de host diferente del sitio principal, por ejemplo, con una CDN o simplemente alojando los recursos en un subdominio diferente. Esto trasladará las inquietudes del presupuesto de rastreo al host que entrega los recursos.
Actualización del 6 de diciembre de 2024: Esto puede ralentizar el rendimiento de la página debido a la sobrecarga de la conexión a un nombre de host diferente, por lo que no recomendamos esta estrategia para recursos críticos (como JavaScript o CSS) que se necesitan para renderizar una página. Sin embargo, para recursos no críticos más grandes, como videos o descargas, vale la pena considerar este enfoque.

Todos estos puntos también se aplican a los recursos multimedia. Si Googlebot (o, más específicamente, Googlebot-Image y Googlebot-Video, respectivamente) los recupera, consumirá el presupuesto de rastreo del sitio.

Es tentador agregar robots.txt a la lista. Sin embargo, desde una perspectiva de renderización, no permitir el rastreo de recursos suele causar problemas. Si WRS no puede recuperar un recurso fundamental para la renderización, es posible que la Búsqueda de Google tenga problemas para extraer el contenido de la página y permitir que esta se posicione en la Búsqueda.

¿Qué es el rastreo de Googlebot?

La mejor fuente para analizar qué recursos rastrea Google son los registros de acceso sin procesar del sitio, que tienen una entrada para cada URL que solicitaron los navegadores y los rastreadores por igual. Para identificar los rastreadores de Google en el registro de acceso, publicamos nuestros rangos de IP en nuestra documentación para desarrolladores.

Por supuesto, el segundo mejor recurso es el informe de estadísticas de rastreo de Search Console, que desglosa cada tipo de recurso por rastreador:

El informe de estadísticas de rastreo de Search Console, que muestra los diferentes tipos de recursos rastreados por Googlebot

Por último, si te encanta rastrear y renderizar, y quieres conversar sobre ello con otras personas, la comunidad de la Central de la Búsqueda es el lugar ideal, pero también puedes encontrarnos en LinkedIn.

Publicado por Martin Splitt y Gary Illyes

Actualizaciones

Actualización del 6 de diciembre de 2024: Se observó un impacto en el rendimiento de la publicación de recursos desde un origen diferente.