Optimizar el presupuesto de rastreo

En esta guía se explica cómo optimizar el rastreo que hace Google de sitios web muy grandes y que se actualizan con frecuencia.

Si en tu sitio no hay muchas páginas que cambien rápidamente o si parece que tus páginas se rastrean el mismo día que se publican, no hace falta que leas esta guía. En el caso de la Búsqueda de Google, basta con mantener actualizado tu sitemap y comprobar la cobertura de indexación de tu sitio con regularidad.

¿A quién va dirigida esta guía?

Aunque las recomendaciones de esta guía son prácticas generales, se trata de una guía avanzada dirigida principalmente a los siguientes tipos de sitios:

  • Sitios grandes (con más de un millón de páginas únicas) que incluyen contenido que cambia con relativa frecuencia (una vez a la semana)
  • Sitios medianos o grandes (con más de 10.000 páginas únicas) que incluyen contenido que cambia muy a menudo (a diario)
  • Sitios con una gran parte del total de URLs clasificadas por Search Console como Descubiertas: actualmente sin indexar

Teoría general del rastreo

La Web es un espacio casi infinito, por lo que Google no tiene la capacidad de descubrir e indexar todas las URLs disponibles. Por eso, el tiempo que pueden dedicar los rastreadores de Google a rastrear un sitio es limitado. Consideramos que cada nombre de host es un sitio. Por ejemplo, https://www.example.com/ y https://code.example.com/ son dos nombres de host diferentes y, por tanto, tienen presupuestos de rastreo independientes. La cantidad de tiempo y de recursos que dedica a rastrear los sitios se denomina "presupuesto de rastreo" del sitio, que se determina en función de dos elementos principales: el límite de la capacidad de rastreo y la demanda de rastreo.

Límite de la capacidad de rastreo

Google quiere rastrear tu sitio sin sobrecargar tus servidores. Para evitarlo, los rastreadores de Google calculan un límite de capacidad de rastreo, que es el número máximo de conexiones paralelas simultáneas que Google puede usar para rastrear un sitio, así como el tiempo de espera entre las solicitudes. Se calcula para ofrecer cobertura de todo tu contenido importante sin sobrecargar tus servidores.

El límite de la capacidad de rastreo puede aumentar o disminuir en función de los siguientes factores:

  • Estado del rastreo: si un sitio responde rápidamente durante un tiempo, el límite aumenta y, por tanto, se pueden usar más conexiones para rastrearlo. En cambio, si ese sitio se ralentiza o devuelve errores de servidor, el límite disminuye y Google lo rastrea menos.
  • Límites de rastreos de Google: Google tiene muchos ordenadores, pero no infinitos, así que debe decidir cómo distribuirlos.

Demanda de rastreo

Cada rastreador tiene su propia demanda a la hora de rastrear la Web. Por ejemplo, AdsBot suele tener una demanda mayor cuando un sitio usa segmentaciones de anuncios dinámicas, Google Shopping tiene una demanda mayor de los productos que tiene en sus feeds de comerciante y la demanda del robot de Google varía en función del tamaño, la frecuencia de actualización, la calidad de las páginas y la relevancia de un sitio en comparación con otros.

En general, los factores que desempeñan un papel crucial en la demanda de rastreo son los siguientes:

  • Inventario detectado: si no indicas a Google qué debe hacer, intentará rastrear todas o la mayor parte de las URLs que conoce de tu sitio. Si muchas de estas URLs son duplicadas o no quieres que se rastreen por algún otro motivo (por ejemplo, porque se han eliminado o no son importantes), Google perderá mucho tiempo de rastreo en tu sitio. Este es el factor que mejor puedes controlar.
  • Popularidad: las URLs que más se visitan en Internet suelen rastrearse con más frecuencia para que estén lo más actualizadas posible en nuestro índice.
  • Falta de actualización: nuestros sistemas quieren volver a rastrear documentos con la suficiente frecuencia como para detectar cualquier cambio.

Además, si hay algún cambio que afecta a todo un sitio (por ejemplo, un traslado), es posible que aumente la demanda de rastreo para volver a procesar el contenido con las nuevas URLs.

Conclusiones

La capacidad y la demanda de rastreo son los dos factores que Google tiene en cuenta para determinar el presupuesto de rastreo de los sitios, que también se puede definir como el conjunto de URLs que Google puede y quiere rastrear. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de rastreo es baja, Google rastreará menos tu sitio.

Prácticas recomendadas

Para optimizar la eficiencia del rastreo, sigue estas prácticas recomendadas:

  • Gestiona tus URLs. Usa las herramientas adecuadas para indicar a Google qué páginas debe rastrear y cuáles no. Si Google pasa demasiado tiempo rastreando URLs que no debería, es posible que los rastreadores de Google decidan que no vale la pena rastrear el resto del sitio (o aumentar el presupuesto para ello).
    • Consolida el contenido duplicado. Elimina el contenido duplicado para que los rastreos se centren en contenido único, y no en URL únicas.
    • Impide que se rastreen ciertas URLs con un archivo robots.txt. Hay páginas que pueden ser importantes para determinados usuarios, pero que no te interesa que aparezcan en las superficies de Google ni que los sistemas de Google las vuelvan a procesar. Por ejemplo, páginas con desplazamiento infinito que incluyen la misma información en páginas enlazadas o versiones de una misma página que presentan la misma información en otro orden. Si no puedes unificar esas páginas tal como se indica en el primer punto, bloquéalas con un archivo robots.txt. Si bloqueas las URLs con robots.txt, Google no podrá rastrearlas y se reducirán considerablemente las probabilidades de que otros sistemas de Google las procesen (por ejemplo, que se indexen en la Búsqueda de Google).
    • Devuelve un código de estado 404 o 410 en páginas que se hayan eliminado de forma permanente. Google no olvida las URLs que ya conoce, pero se toma los códigos de estado 404 como señales de que no debe rastrear esas URLs de nuevo. No obstante, las URLs que están bloqueadas permanecen en la cola de rastreo y volverán a rastrearse cuando dejen de estar bloqueadas.
    • Elimina los errores soft 404. Las páginas con errores soft 404 se siguen rastreando, lo que consume parte del presupuesto. Consulta el informe de cobertura de indexación para ver si hay errores soft 404.
    • Mantén tus sitemaps actualizados. Google lee tus sitemaps cada cierto tiempo, así que asegúrate de incluir todo el contenido que quieres que rastree. Si en tu sitio se incluye contenido que se va actualizando, lo recomendable es que incluyas la etiqueta <lastmod>.
    • Procura no usar cadenas de redirección largas, ya que afectan al rastreo.
  • Configura tus páginas para que se carguen de forma eficiente. Si Google puede cargar y renderizar tus páginas rápidamente, es posible que pueda leer más contenido de tu sitio.
  • Depura problemas con el presupuesto de rastreo. Comprueba que no haya habido problemas de disponibilidad en tu sitio mientras se rastreaba y busca otras formas de conseguir que el rastreo sea más eficiente.

¿Cómo puedo aumentar el presupuesto de rastreo?

Hay dos formas de aumentar el presupuesto de rastreo:

  • Añade más recursos del servidor: si no se puede rastrear tu sitio debido a la capacidad del servidor (por ejemplo, si aparece el error Carga de host superada en la herramienta de inspección de URLs), añade más recursos del servidor si es lo que te conviene.
  • Optimiza la calidad del contenido para el producto de Google al que se dirige: Google determina los recursos de rastreo asignados a cada sitio teniendo en cuenta los elementos que son relevantes para el producto de Google específico. Por ejemplo, en el caso de la Búsqueda de Google, se incluyen aspectos como la popularidad, el valor general para los usuarios, la singularidad del contenido y la capacidad de servicio.