Diciembre de rastreo: cómo y por qué rastrea Googlebot

Martes, 3 de diciembre del 2024

Es posible que hayas oído que la Búsqueda de Google necesita hacer un poco de trabajo antes de que una página web pueda aparecer en los resultados de la Búsqueda de Google. Uno de estos pasos se denomina "rastreo". El rastreo de la Búsqueda de Google lo realiza el robot de Google, un programa que se ejecuta en los servidores de Google y que obtiene una URL y se ocupa de errores de red, redirecciones y otras pequeñas complicaciones que puede encontrar mientras se desplaza por la Web. Sin embargo, hay algunos detalles de los que no se habla con frecuencia. Cada semana de este mes, vamos a analizar algunos de esos detalles, ya que pueden influir de forma significativa en cómo se rastrean tus sitios.

Repasemos un poco: ¿qué es el rastreo?

El rastreo es el proceso de descubrir páginas web nuevas y volver a visitar las actualizadas, así como descargarlas. En resumen, el robot de Google obtiene una URL, hace una solicitud HTTP al servidor que la aloja y, a continuación, gestiona la respuesta de ese servidor, lo que puede implicar seguir redirecciones, gestionar errores y enviar el contenido de la página al sistema de indexación de Google.

Sin embargo, las páginas web modernas no son solo HTML puro, así que ¿qué pasa con los demás recursos que componen una página? ¿Cómo afecta el rastreo de estos recursos al "presupuesto de rastreo"? ¿Se pueden almacenar en caché estos recursos en Google? ¿Hay alguna diferencia entre las URLs que no se han rastreado antes y las que ya están indexadas? En esta entrada, responderemos a estas preguntas y a muchas más.

El robot de Google y el rastreo de recursos de página

Además de HTML, los sitios web modernos usan una combinación de diferentes tecnologías, como JavaScript y CSS, para ofrecer a los usuarios experiencias dinámicas y funciones útiles. Cuando se accede a esas páginas con un navegador, primero se descarga la URL superior, que aloja los datos necesarios para empezar a crear la página para el usuario (el HTML de la página). Estos datos iniciales pueden contener referencias a recursos como JavaScript y CSS, pero también imágenes y vídeos que el navegador volverá a descargar para, finalmente, crear la página final que se mostrará al usuario.

Google hace exactamente lo mismo, aunque de una forma ligeramente diferente:

  1. El robot de Google descarga los datos iniciales de la URL superior (el HTML de la página).
  2. El robot de Google pasa los datos obtenidos al servicio de renderizado web (WRS).
  3. El WRS usa al robot de Google para descargar los recursos a los que se hace referencia en los datos originales.
  4. El WRS crea la página usando todos los recursos descargados, como lo haría el navegador de un usuario.

En comparación con un navegador, el tiempo entre cada paso puede ser considerablemente mayor debido a las limitaciones de programación, como la carga percibida del servidor que aloja los recursos necesarios para renderizar una página. Aquí es donde entra en juego el presupuesto de rastreo.

Al rastrear los recursos necesarios para renderizar una página, se reduce el presupuesto de rastreo del nombre de host que aloja el recurso. Para mejorar esta situación, el WRS intenta almacenar en caché todos los recursos (JavaScript y CSS) a los que se hace referencia en las páginas que renderiza. El tiempo de actividad de la caché de WRS no se ve afectado por las directivas de almacenamiento en caché HTTP. En su lugar, WRS almacena todo en caché durante un máximo de 30 días, lo que ayuda a conservar el presupuesto de rastreo del sitio para otras tareas de rastreo.

Desde el punto de vista de los propietarios del sitio, gestionar cómo y qué recursos se rastrean puede influir en el presupuesto de rastreo del sitio. Te recomendamos que hagas lo siguiente:

  1. Utiliza el menor número de recursos posible para ofrecer a los usuarios una experiencia excelente. Cuantos menos recursos se necesiten para renderizar una página, menos presupuesto de rastreo se gastará durante el renderizado.
  2. Utiliza los parámetros de eliminación de caché con precaución: si las URLs de los recursos cambian, es posible que Google tenga que rastrearlos de nuevo, aunque su contenido no haya cambiado. Esto, por supuesto, consumirá presupuesto de rastreo.
  3. Aloja los recursos en un nombre de host diferente al del sitio principal. Por ejemplo, puedes usar una CDN o alojar los recursos en un subdominio diferente. De este modo, se transferirán los problemas de presupuesto de rastreo al host que sirve los recursos.

Todos estos puntos también se aplican a los recursos multimedia. Si el robot de Google (o, más específicamente, Googlebot-Image y Googlebot-Video, respectivamente) los obtiene, consumirá el presupuesto de rastreo del sitio.

Es tentador añadir robots.txt a la lista, pero, desde el punto de vista del renderizado, no permitir el rastreo de recursos suele causar problemas. Si WRS no puede obtener un recurso crítico para el renderizado, es posible que la Búsqueda de Google tenga problemas para extraer el contenido de la página y permitir que la página aparezca en los resultados de búsqueda.

¿Qué es el rastreo del robot de Google?

La mejor fuente para analizar los recursos que rastrea Google son los registros de acceso sin procesar del sitio, que tienen una entrada para cada URL que han solicitado los navegadores y los rastreadores. Para identificar los rastreadores de Google en el registro de acceso, publicamos nuestros intervalos de IP en nuestra documentación para desarrolladores.

El segundo recurso más útil es, sin duda, el informe "Estadísticas de rastreo" de Search Console, que desglosa cada tipo de recurso por rastreador:

El informe "Estadísticas de rastreo" de Search Console, que muestra los distintos tipos de recursos que ha rastreado Googlebot

Por último, si te interesa mucho el rastreo y el renderizado y quieres hablar de ello con otros usuarios, la comunidad del Centro de la Búsqueda es el lugar ideal, pero también puedes encontrarnos en LinkedIn.


Actualizaciones

  • Actualización del 6 de diciembre del 2024: Se ha detectado un impacto en el rendimiento al servir recursos desde un origen diferente.

¿Quieres saber más sobre el rastreo? Echa un vistazo a toda la serie "Diciembre de rastreo":