Lunes, 16 de enero de 2017
Hace poco, escuchamos varias definiciones para el término "presupuesto de rastreo". Sin embargo, no contamos con una sola definición que describa todo lo que implica eso. En esta publicación, explicaremos con qué definiciones contamos y qué significan para Googlebot.
En primer lugar, queremos enfatizar que el presupuesto de rastreo, como se describe más adelante, no es un asunto del que la mayoría de los publicadores deba preocuparse. Si las páginas nuevas suelen rastrearse el mismo día que se publican, el presupuesto de rastreo no es un asunto en el que los webmasters necesitan enfocarse. Del mismo modo, si un sitio cuenta con una cantidad de URL no muy alta (menor a unos pocos miles), la mayoría de las veces se rastreará de manera eficaz.
Es más importante priorizar qué rastrear, cuándo hacerlo y cuántos recursos el servidor que aloja el sitio puede asignar para el rastreo de los sitios más grandes, o, por ejemplo, de aquellos que generan páginas automáticamente según los parámetros de URL.
Límite de la frecuencia de rastreo
Googlebot está diseñado para usar la Web de manera apropiada. Si bien su prioridad es el rastreo, también se asegura de no perjudicar la experiencia de los usuarios que visitan el sitio. Eso se denomina "límite de la frecuencia de rastreo", que restringe la frecuencia de recuperación máxima para un sitio determinado.
En pocas palabras, representa la cantidad de conexiones paralelas simultáneas que puede usar Googlebot para rastrear el sitio, así como el tiempo que debe esperar entre las recuperaciones. La frecuencia de rastreo puede aumentar o disminuir según ciertos factores:
- Estado del rastreo: Si el sitio responde rápidamente durante un tiempo, el límite aumentará, lo que implica que se podrán usar más conexiones para rastrear. Si el sitio se ralentiza o si responde con errores de servidor, el límite disminuirá, y Googlebot rastreará menos.
- Límite establecido en Search Console: Los propietarios de sitios web podrán reducir la frecuencia con la que Googlebot rastrea su sitio. Ten en cuenta que configurar límites más altos no aumenta automáticamente el rastreo.
Demanda de rastreo
Aunque no se alcance el límite de la frecuencia de rastreo, si no hay demanda de indexación, Googlebot tendrá poca actividad. Los dos factores que desempeñan un papel importante a los efectos de determinar la demanda de rastreo son los siguientes:
- Popularidad: Las URLs más populares de Internet tienden a rastrearse con mayor frecuencia a fin de mantenerlas actualizadas en nuestro índice.
- Inactividad: Nuestros sistemas intentarán evitar que las URL queden inactivas en el índice.
Además, los eventos que afectan a todo el sitio, como sus traslados, pueden provocar un aumento en la demanda de rastreo a fin de volver a indexar el contenido en las URL nuevas.
Con la combinación de los conceptos de frecuencia y demanda de rastreo, definimos el presupuesto de rastreo como la cantidad de URL que Googlebot puede y quiere rastrear.
Factores que afectan el presupuesto de rastreo
Según nuestro análisis, tener muchas URL que agregan poco valor puede afectar, de manera negativa, el rastreo y la indexación de un sitio. Descubrimos que las URL que agregan poco valor se dividen en estas categorías, por orden de importancia:
- Navegación por facetas e identificadores de sesión
- Contenido duplicado en el sitio
- Páginas con errores leves
- Páginas hackeadas
- Espacios infinitos y proxies
- Contenido de spam y calidad baja
Desperdiciar recursos del servidor en páginas como estas desviará la actividad de rastreo de páginas que, en realidad, tienen valor, lo que podría causar una demora significativa en el descubrimiento de buen contenido en un sitio.
Preguntas principales
El rastreo es el punto de entrada de los sitios en los resultados de la búsqueda de Google. Indexar un sitio web en la Búsqueda de Google resulta más simple si se rastrea de manera eficiente.
¿La velocidad del sitio afecta mi presupuesto de rastreo? ¿Qué ocurre con los errores?
El aumento de la velocidad de un sitio mejora la experiencia de los usuarios y, al mismo tiempo, incrementa la frecuencia de rastreo. Para Googlebot, un sitio veloz es una señal de servidores en buen estado, por lo que puede obtener más contenido con la misma cantidad de conexiones. Por otra parte, una cantidad significativa de errores 5xx o tiempos de espera de conexión indican lo opuesto, y se ralentiza el rastreo.
Te recomendamos que prestes atención al informe de errores de rastreo en Search Console y que mantengas una baja cantidad de errores de servidor.
¿El rastreo es un factor de clasificación?
El aumento de la frecuencia de rastreo no necesariamente implicará mejores posiciones en los resultados de la Búsqueda. Google usa cientos de indicadores a fin de clasificar los resultados y, aunque el rastreo es necesario para que una página aparezca en los resultados, no es un indicador de clasificación.
¿Las URLs alternativas y el contenido incorporado se considerarán en el presupuesto de rastreo?
Por lo general, cualquier URL que rastree Googlebot se considerará en el presupuesto de rastreo de un sitio. Es posible que se deban rastrear URLs alternativas, como AMP o hreflang, además de contenido incorporado, como CSS y JavaScript, incluidas las llamadas AJAX (como, XHR), y estas podrían consumir el presupuesto de rastreo de un sitio. Del mismo modo, las cadenas de redireccionamiento largas pueden afectar el rastreo de manera negativa.
¿Puedo controlar Googlebot con la regla crawl-delay
?
Googlebot no procesa la regla no estándar crawl-delay
de robots.txt.
¿La regla nofollow
afecta el presupuesto de rastreo?
Depende. Cualquier URL que se rastree afecta el presupuesto de rastreo, por lo que incluso si tu página marca una URL como nofollow
, se podrá rastrear si otra página de tu sitio o cualquier página de la Web no etiqueta el vínculo como nofollow.
¿Las URLs inhabilitadas a través de robots.txt afectan el presupuesto de rastreo de cualquier manera?
No, las URL inhabilitadas no afectan el presupuesto de rastreo.
A fin de obtener información para optimizar el rastreo del sitio, consulta nuestra entrada vigente de blog sobre la optimización de rastreo de 2009. Si tienes preguntas, consulta los foros.