Una amplia guía para que los propietarios de sitios administren su presupuesto de rastreo
En esta guía se describe cómo optimizar el rastreo de Google de sitios muy grandes y que se actualizan con frecuencia.
Si tu sitio no tiene una gran cantidad de páginas que cambian rápidamente, o si estas parecen rastrearse el mismo día que se publican, no es necesario que leas esta guía. Solo mantén actualizado tu mapa del sitio y revisa la cobertura de la indexación de forma periódica.
Si tienes contenido que estuvo disponible durante un tiempo, pero que nunca se indexó, este es un problema diferente. Usa la Herramienta de inspección de URL para averiguar por qué no se está indexando tu página.
¿A quién está dirigida esta guía?
Esta es una guía avanzada que se diseñó para los siguientes sitios:
- Sitios grandes (más de 1 millón de páginas únicas) con contenido que cambia con cierta frecuencia (una vez a la semana)
- Sitios medianos o grandes (más de 10,000 páginas únicas) con contenido que cambia muy rápidamente (a diario)
- Sitios con una gran parte del total de sus URLs clasificadas por Search Console como Descubre (actualmente sin indexar)
Teoría general del rastreo
La Web es un espacio casi infinito que excede la capacidad de Google para explorar e indexar todas las URLs disponibles. Por lo tanto, el tiempo que Googlebot puede destinar a rastrear cada sitio es limitado. La cantidad de tiempo y recursos que destina Google a rastrear un sitio se suele denominar presupuesto de rastreo. Ten en cuenta que no todo el contenido rastreado de tu sitio necesariamente será indexado; cada página debe analizarse, unificarse y evaluarse a fin de definir si se indexará luego de su rastreo.
Hay dos elementos principales que determinan el presupuesto de rastreo: el límite de la capacidad de rastreo y la demanda de rastreo.
Límite de la capacidad de rastreo
Googlebot desea rastrear tu sitio sin sobrecargar tus servidores. Para evitarlo, Googlebot calcula un límite de la capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Googlebot puede usar para rastrear un sitio, así como el retraso entre recuperaciones. Ese cálculo permite la cobertura de todo el contenido importante sin sobrecargar tus servidores.
El límite de la capacidad de rastreo puede aumentar o disminuir según ciertos factores:
- Estado del rastreo: Si el sitio responde rápidamente durante un tiempo, el límite aumentará, lo que implica que se podrán usar más conexiones para rastrear. Si el sitio se ralentiza o si responde con errores de servidor, el límite disminuirá, y Googlebot rastreará menos.
- Límites de rastreo de Google: Google tiene una gran cantidad de máquinas, pero no son infinitas. Debemos tomar decisiones en función de los recursos que tenemos.
Demanda de rastreo
Por lo general, Google dedica el tiempo que sea necesario a rastrear un sitio, según su tamaño, la frecuencia de actualización, la calidad de sus páginas y la relevancia, en comparación con otros sitios.
Los factores que desempeñan un papel importante a los efectos de determinar la demanda de rastreo son los siguientes:
- Inventario percibido: Si no le indicas lo contrario, Googlebot intentará rastrear todas o la mayoría de las URLs que conoce de tu sitio. Si muchas de esas URLs están duplicadas o por algún otro motivo no quieres rastrearlas (porque se quitaron, porque tienen poca importancia, etc.), Google desperdiciará mucho tiempo de rastreo en tu sitio. Este es el factor que más puedes controlar a tu favor.
- Popularidad: Las URLs más populares de Internet tienden a rastrearse con mayor frecuencia a fin de mantenerlas actualizadas en nuestro índice.
- Obsolescencia: Nuestros sistemas volverán a rastrear los documentos con la frecuencia suficiente para detectar cualquier cambio.
Además, los eventos que afectan a todo el sitio, como sus traslados, pueden provocar un aumento en la demanda de rastreo a fin de volver a indexar el contenido en las URLs nuevas.
En resumen
En función de la capacidad de rastreo y su demanda, Google define el presupuesto de rastreo de un sitio como el conjunto de URLs que podrá rastrear Googlebot. Aunque no se alcance el límite de la capacidad de rastreo, si la demanda de este es baja, Googlebot rastreará tu sitio con menor frecuencia.
Prácticas recomendadas
Sigue estas prácticas recomendadas a fin de maximizar tu eficiencia de rastreo:
- Administra tu inventario de URL: Usa las herramientas adecuadas
para indicarle a Google qué páginas rastrear y cuáles no. Si Google dedica mucho tiempo
a rastrear URLs que no son apropiadas para el índice, Googlebot podría determinar que no
vale la pena destinar tiempo a revisar el resto de tu sitio (o podría aumentar el presupuesto para hacerlo).
- Consolida el contenido duplicado. Elimina el contenido duplicado para centrar el rastreo en contenido único, en lugar de hacerlo en URLs únicas.
- Bloquea el rastreo de las URLs usando robots.txt. Algunas páginas pueden ser importantes para los usuarios, pero no necesariamente quieres que aparezcan en los resultados de la Búsqueda. Por ejemplo, las páginas de desplazamiento infinito que duplican información en páginas vinculadas o las versiones ordenadas de manera diferente de la misma página. Si no puedes consolidarlas como se describe en la primera viñeta, usa robots.txt para bloquear estas páginas sin importancia (para la búsqueda). Si bloqueas las URLs con robots.txt, disminuirá de forma significativa la probabilidad de que se indexen.
-
Muestra un código de estado
404
o410
para páginas que se quitaron de forma permanente. Google no olvidará una URL que conozca, pero un código de estado404
es un indicador claro para no volver a rastrear esa URL. Sin embargo, las URLs bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se quite el bloqueo. - Elimina los
soft 404
errores. Se seguirán rastreando las páginassoft 404
, y se desperdiciará tu presupuesto. Consulta el Informe de cobertura de la indexación para comprobar si hay erroressoft 404
. - Mantén actualizados tus mapas del sitio. Google lee tu mapa del sitio con regularidad,
así que asegúrate de incluir todo el contenido que deseas que Google rastree. Si tu sitio
incluye contenido actualizado, te recomendamos incluir la etiqueta
<lastmod>
. - Evita las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
- Haz que tus páginas se carguen de forma eficiente. Si Google carga y procesa tus páginas más rápido, es probable que podamos leer más contenido del sitio.
- Supervisa el rastreo de tu sitio. Supervisa si tu sitio tuvo problemas de disponibilidad durante el rastreo y busca maneras de que este sea más eficaz.
Supervisa el rastreo y la indexación de tu sitio
Sigue estos pasos clave para supervisar el perfil de rastreo de tu sitio:
- Comprueba si Googlebot actualmente detecta problemas de disponibilidad en tu sitio
- Revisa si no se están rastreando algunas páginas que sí deberían rastrearse.
- Revisa si alguna parte de tu sitio debería rastrearse más rápido que lo que ya se está haciendo.
- Mejora la eficiencia del rastreo de tu sitio.
- Controla el rastreo excesivo de tu sitio.
Comprueba si Googlebot actualmente detecta problemas de disponibilidad en tu sitio
Mejorar la disponibilidad de tu sitio no necesariamente aumentará el presupuesto de rastreo; Google determina la mejor frecuencia de rastreo en función de su demanda, como se describió anteriormente. Sin embargo, los problemas de disponibilidad no permiten que Google rastree tu sitio tanto como quisiera.
Diagnóstico:
Usa el informe de estadísticas de rastreo para ver el historial de rastreo de Googlebot correspondiente a tu sitio. En ese informe se muestra cuándo Google detectó problemas de disponibilidad. Si se informan errores o advertencias de disponibilidad en tu sitio, busca instancias en los gráficos de disponibilidad del host en los que las solicitudes de Googlebot superen la línea roja que marca el límite, haz clic en el gráfico para ver qué URL fallaron e intenta correlacionarlas con problemas en el sitio.
Además, puedes usar la Herramienta de inspección de URLs para probar algunas URLs en tu sitio. Si la herramienta muestra advertencias como Se excedió la carga del host, significa que Googlebot no puede rastrear tantas URLs de tu sitio como había descubierto.
Solución:
- Lee la documentación sobre el informe de estadísticas de rastreo a fin de obtener información para encontrar y resolver algunos problemas de disponibilidad.
- Bloquea el rastreo de las páginas que no quieres que se rastreen. (Consulta cómo administrar tu inventario).
- Aumenta la velocidad de carga y procesamiento de la página. (Consulta Cómo mejorar la eficacia de rastreo de tu sitio).
- Aumenta la capacidad de tu servidor. Si parece que Google siempre rastrea tu sitio al límite de su capacidad de entrega, pero tienes URLs importantes que no se rastrean ni actualizan con la frecuencia necesaria, aumentar los recursos de entrega podría permitir que Google solicite más páginas de tu sitio. Revisa el historial de disponibilidad de tu host en el informe de estadísticas de rastreo para ver si la frecuencia de rastreo de Google parece cruzar el límite con frecuencia. Si es así, aumenta los recursos de entrega durante un mes y verifica si las solicitudes de rastreo aumentaron durante ese mismo período.
Verifica si no se está rastreando alguna parte de tu sitio que sí debería rastrearse
Google dedica el tiempo que sea necesario en tu sitio para indexar todo el contenido que encuentre de alta calidad y valioso para el usuario. Si crees que a Googlebot le falta rastrear contenido importante, es probable que no sepa de su existencia, que el contenido esté bloqueado para Google o que la disponibilidad de tu sitio esté limitando el acceso de Google (o bien Google está intentando no sobrecargar tu sitio).
Diagnóstico:
Search Console no proporciona un historial de rastreo para tu sitio que se pueda filtrar por URL o ruta de acceso, pero puedes inspeccionar los registros de tu sitio a fin de ver si Googlebot rastreó URLs específicas. Si se indexaron esas URL rastreadas o no, es otra historia.
Recuerda que las páginas nuevas suelen tardar varios días en advertirse, como mínimo. En la mayoría de los sitios, no se espera el rastreo de URL el mismo día, a excepción de los sitios con contenido urgente, como los de noticias.
Solución:
Si agregaste páginas a tu sitio y no se las está rastreando en un período razonable, puede que Google no sepa de ellas, que el contenido esté bloqueado, que tu sitio haya alcanzado su capacidad máxima de entrega o que se haya terminado tu presupuesto de rastreo.
- Cuéntale a Google sobre las páginas nuevas: actualiza tus mapas del sitio para que reflejen las URLs nuevas.
- Revisa tus reglas robots.txt para confirmar que no estés bloqueando las páginas por accidente.
- Revisa tus prioridades de rastreo (es decir, usa el presupuesto de rastreo con prudencia). Administra tu inventario y mejora la eficacia de rastreo de tu sitio.
- Verifica que no te estés quedando sin capacidad de entrega. Googlebot reducirá el rastreo si detecta que tus servidores tienen problemas para responder a las solicitudes de rastreo.
Ten en cuenta que posiblemente no se muestren las páginas en los resultados de la búsqueda, incluso aunque se rastreen, si no hay suficiente valor o demanda del usuario para el contenido.
Consulta si se rastrean las actualizaciones lo suficientemente rápido
Si nos falta rastrear páginas nuevas o actualizadas de tu sitio, tal vez se deba a que no las vimos o no notamos que se hubieran actualizado. A continuación, te indicamos cómo puedes ayudarnos a estar al tanto de las actualizaciones de páginas.
Ten en cuenta que Google se esfuerza por verificar e indexar las páginas en un plazo razonable. Para la mayoría de los sitios, ese plazo es de tres días o más. No esperes que Google indexe páginas el mismo día que las publiques, a menos que tengas un sitio de noticias o subas contenido valioso y extremadamente urgente.
Diagnóstico:
Analiza los registros de tu sitio para ver cuándo Googlebot rastreó URLs específicas.
Para conocer la fecha de indexación, usa la Herramienta de inspección de URL o realiza una búsqueda de Google de las URLs que actualizaste.
Solución:
Qué debes hacer:
- Usa un mapa del sitio de Google Noticias si tu sitio tiene contenido de noticias.
- Usa la etiqueta
<lastmod>
en los mapas del sitio para indicar cuándo se actualizó una URL indexada. - Usa una estructura de URL simple para ayudar a Google a encontrar tus páginas.
- Proporciona vínculos rastreables
<a>
estándar para que Google pueda encontrar tus páginas.
Qué debes evitar:
- Enviar el mismo mapa del sitio varias veces al día.
- Esperar que Googlebot rastree todo en un mapa del sitio o lo haga de forma inmediata. Los mapas del sitio son sugerencias útiles para Googlebot, pero no son requisitos absolutos.
- Incluir en tus mapas del sitio URL que no quieres que aparezcan en la Búsqueda. Esto puede desperdiciar tu presupuesto de rastreo en páginas que no quieres que se indexen
Mejora la eficiencia del rastreo de tu sitio
Aumenta la velocidad de carga de tu página
El rastreo de Google está limitado por ancho de banda, tiempo y disponibilidad de las instancias de Googlebot. Si tu servidor responde a las solicitudes más rápidamente, es posible que podamos rastrear más páginas del sitio. De todas formas, Google solo deseará rastrear contenido de alta calidad, por lo que hacer que páginas de baja calidad sean más rápidas no hará que Googlebot aumente el rastreo de tu sitio. Por el contrario, si creemos que falta contenido de alta calidad en tu sitio, es probable que aumentemos tu presupuesto para rastrearlo.
A continuación, te mostramos cómo optimizar tus páginas y recursos para el rastreo:
- Usa robots.txt para evitar que Googlebot cargue recursos de gran tamaño y sin importancia. Asegúrate de bloquear solo los recursos que no sean críticos; es decir, los que no son importantes para comprender el significado de la página (como las imágenes decorativas).
- Cerciórate de que las páginas se carguen rápidamente.
- Presta atención a las cadenas de redireccionamiento largas, que tienen un efecto negativo en el rastreo.
- Tanto el tiempo destinado a responder las solicitudes del servidor como el necesario para procesar las páginas son importantes, incluido el tiempo de carga y ejecución de los recursos incorporados, como imágenes y secuencias de comandos. Ten en cuenta los recursos lentos o de gran tamaño necesarios para la indexación.
Especifica los cambios de contenido con códigos de estado HTTP
Por lo general, Google admite los
encabezados de solicitud HTTP If-Modified-Since
y If-None-Match
para el rastreo. Los rastreadores de Google no envían los encabezados en todos los intentos de rastreo. Esto depende
del caso de uso de la solicitud (por ejemplo,
AdsBot tiene más
probabilidades de establecer el encabezado de la solicitud HTTP If-Modified-Since
y If-None-Match
). Si nuestros rastreadores envían el encabezado If-Modified-Since
, el valor del encabezado
es la fecha y hora
en la que se rastreó por última vez el contenido. Según ese valor, el servidor puede optar por mostrar un
código de estado HTTP 304 (Not Modified)
sin cuerpo de respuesta, en cuyo caso Google
reutilizará la versión de contenido que rastreó por última vez. Si el contenido es más reciente que la fecha
especificada por el rastreador en el encabezado If-Modified-Since
, el servidor puede mostrar un
código de estado HTTP 200 (OK)
con el cuerpo de la respuesta.
Más allá de los encabezados de la solicitud, puedes enviar un código de estado HTTP 304 (Not Modified)
y ningún cuerpo de respuesta para cualquier solicitud de Googlebot si el contenido no cambió desde
la última vez que visitó la URL. Esto ahorrará tiempo y recursos de procesamiento del servidor,
lo que podría mejorar indirectamente la eficiencia del rastreo.
Oculta las URLs que no quieras que aparezcan en los resultados de la búsqueda
Desperdiciar recursos del servidor en páginas innecesarias puede reducir la actividad de rastreo de páginas que son importantes para ti, lo que podría causar una demora significativa en el descubrimiento de gran contenido nuevo o actualizado en un sitio.
Exponer muchas URLs que no quieres que se rastreen mediante la Búsqueda puede afectar negativamente el rastreo y la indexación de un sitio. Por lo general, esas URLs se clasifican en las siguientes categorías:
- Navegación por facetas e identificadores de sesión: (la navegación por facetas suele ser contenido duplicado del sitio; los identificadores de sesión y otros parámetros de URL que simplemente ordenan o filtran la página no proporcionan contenido nuevo). Usa robots.txt para bloquear las páginas de navegación por facetas.
- Contenido duplicado: ayuda a Google a identificar contenido duplicado para evitar el rastreo innecesario.
- Páginas de
soft 404
: muestra un código404
cuando una página ya no existe. - Páginas hackeadas: asegúrate de revisar el informe de problemas de seguridad y corregir o quitar las páginas hackeadas que encuentres.
- Espacios infinitos y proxies: bloquea su rastreo usando robots.txt.
- Contenido de spam y calidad baja: obviamente, es ideal evitarlo.
- Páginas del carrito de compras, páginas de desplazamiento infinito y páginas que realizan una acción (como páginas de registro o de compra inmediata).
Qué debes hacer:
- Usa robots.txt si no quieres que Google rastree un recurso o página en absoluto.
- Si se vuelve a usar un recurso común en varias páginas (como una imagen compartida o un archivo JavaScript), haz referencia al recurso desde la misma URL en cada página para que Google pueda almacenar en caché y reutilizar el mismo recurso sin necesidad de solicitarlo varias veces.
Qué debes evitar:
- No agregues ni quites páginas o directorios de robots.txt periódicamente como una forma de "reasignar" parte del presupuesto de rastreo para tu sitio. Usa robots.txt solo para páginas o recursos que no quieres que aparezcan en Google a largo plazo.
- No cambies los mapas del sitio ni uses otros mecanismos de ocultamiento temporales para reasignar el presupuesto.
Controla el rastreo excesivo de tu sitio (emergencias)
Googlebot tiene algoritmos destinados a evitar sobrecargar tu sitio con solicitudes de rastreo. Sin embargo, si compruebas que Googlebot está sobrecargándolo, hay algunas medidas que puedes tomar.
Diagnóstico:
Supervisa el servidor para detectar solicitudes excesivas de Googlebot en tu sitio.
Solución:
En una emergencia, te recomendamos que sigas estos pasos para ralentizar un rastreo de Googlebot que esté sobrecargando el servidor:
- Muestra los códigos de estado de respuesta HTTP
503
o429
temporalmente para las solicitudes de Googlebot cuando el servidor esté sobrecargado. Googlebot volverá a intentar procesar esas URLs durante aproximadamente 2 días. Ten en cuenta que mostrar códigos de "no disponibilidad" durante más de algunos días hará que Google ralentice de forma permanente o detenga el rastreo de las URL de tu sitio, por lo que deberías seguir los siguientes pasos adicionales. -
Cuando disminuya la frecuencia de rastreo, deja de mostrar los códigos de estado de respuesta HTTP
503
o429
para las solicitudes de rastreo. Si se muestran503
o429
durante más de 2 días, Google quitará esas URL del índice. - Supervisa el rastreo y la capacidad del host a lo largo del tiempo.
- Si el rastreador problemático es uno de los rastreadores de AdsBot, es probable que hayas creado orientaciones de anuncios dinámicos de búsqueda para tu sitio que Google está intentando rastrear. Ese rastreo volverá a ocurrir cada 3 semanas. Si no cuentas con la capacidad de servidor necesaria para controlar estos rastreos, limita las orientaciones de tus anuncios o aumenta la capacidad de entrega.
Mitos y verdades sobre el rastreo
Prueba tus conocimientos sobre la forma en la que Google rastrea e indexa sitios web.
5xx
(errores de servidor) o tiempos de espera de conexión indican lo opuesto, y
se ralentiza el rastreo. Te recomendamos que prestes atención al informe de estadísticas de rastreo en Search Console y que mantengas una baja cantidad de errores de servidor.
nofollow
afecta el presupuesto de rastreo.nofollow
, se podrá rastrear si otra página de tu sitio o cualquier página
de la Web no etiqueta el vínculo como nofollow
.
noindex
para controlar el presupuesto de rastreo.noindex
.
Sin embargo,
noindex
te ayudará a mantener el índice. Si
quieres asegurarte de que esas páginas no terminen en el índice de Google, continúa usando noindex
y no te preocupes por el presupuesto de rastreo. También es importante tener en cuenta que si quitas las URLs
del índice de Google con noindex
, Googlebot puede enfocarse en
otras URLs del sitio, lo que significa que noindex
puede liberar indirectamente parte del presupuesto de rastreo para tu sitio a largo plazo.
4xx
desperdician el presupuesto de rastreo.4xx
códigos de estado HTTP
(excepto 429
) no desperdician el presupuesto de rastreo. Google intentó
rastrear la página, pero recibió un código de estado y ningún otro contenido.