Googlebot
Googlebot es el nombre genérico de los dos tipos de rastreadores web de Google:
- Googlebot para smartphones: Es un rastreador para dispositivos móviles que se hace pasar por un usuario en un dispositivo móvil.
- Googlebot para computadoras de escritorio: Es un rastreador para computadoras de escritorio que se hace pasar por un usuario en una computadora.
Puedes identificar el subtipo de Googlebot mediante el
encabezado de la solicitud HTTPuser-agent
en la solicitud. Sin embargo, ambos tipos de rastreadores obedecen al mismo token de producto (token usuario-agente) en
robots.txt. Por ese motivo, no puedes elegir de forma exclusiva a Googlebot para smartphones o Googlebot
para computadoras de escritorio a través de robots.txt.
En la mayoría de los sitios, Google indexa principalmente la versión para dispositivos móviles del contenido. Por lo tanto, la mayor parte de las solicitudes de rastreo de Googlebot se harán a través del rastreador para dispositivos móviles, y una parte mucho menor provendrá del rastreador para computadoras de escritorio.
Cómo accede Googlebot a tu sitio
En promedio, no es frecuente que Googlebot acceda a los sitios más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, es posible que la frecuencia parezca ligeramente superior durante períodos breves.
Googlebot está diseñado para ejecutarse de manera simultánea en miles de equipos con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Además, para reducir el consumo del ancho de banda, muchos rastreadores se ejecutan en equipos que están cerca de los sitios que tienen posibilidades de rastrear. Por lo tanto, es factible que, en tus registros, se muestren visitas de varias direcciones IP, todas con el usuario-agente de Googlebot. Nuestro objetivo es rastrear la mayor cantidad posible de páginas de tu sitio en cada visita sin sobrecargar el servidor. Si tu sitio tiene problemas para soportar las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.
Googlebot rastrea más que nada desde direcciones IP en Estados Unidos. En caso de que Googlebot detecte que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países. La lista de rangos de direcciones IP que usa Googlebot está disponible en formato JSON.
Googlebot rastrea con HTTP/1.1 y, si el sitio lo admite, con
HTTP/2. No hay ningún
beneficio de clasificación basado en la versión del protocolo que se usa para rastrear tu sitio. Sin embargo, el rastreo
a través de HTTP/2 puede ahorrar recursos informáticos (como la CPU o la RAM) en tu sitio y al Googlebot.
Para inhabilitar el rastreo con HTTP/2, indícale al servidor donde se aloja tu sitio que responda
con un código de estado HTTP 421
cuando Googlebot intente rastrearlo con
HTTP/2. Si eso no es posible, puedes
enviar un mensaje al equipo de Googlebot
(aunque esta solución es temporal).
Googlebot puede rastrear los primeros 15 MB de los archivo HTML o de los archivos basados en texto compatibles. Cada recurso al que se hace referencia en el código HTML, como CSS y JavaScript, se recupera por separado, y cada recuperación está vinculada por el mismo límite de tamaño de archivo. Después de los primeros 15 MB del archivo, Googlebot deja de rastrear y solo tiene en cuenta los primeros 15 MB del archivo para indexarlo. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como Googlebot para imágenes y Googlebot para videos, tengan límites diferentes.
Cuando el rastreo proviene de direcciones IP de EE.UU., se toma como referencia la zona horaria de la hora del Pacífico.
Cómo bloquear a Googlebot en tu sitio
Es casi imposible mantener un sitio en secreto, aunque no publiques vínculos que lleven a él. Por ejemplo, una vez que alguien sigue un vínculo de tu sitio "secreto" a otro, puede aparecer la URL de tu sitio "secreto" en la etiqueta de URL de referencia, y el otro sitio puede almacenarla y publicarla en su registro de URL de referencia.
Si no quieres que Googlebot rastree contenido de tu sitio, tienes varias opciones para evitarlo. Recuerda que existe una diferencia entre el rastreo y la indexación; impedir que Googlebot rastree una página no impide que aparezca en los resultados de la búsqueda:
- ¿Quieres evitar que Googlebot rastree una página? Usa un archivo robots.txt.
- ¿No quieres que Google indexe una página? Usa
noindex
. - ¿Quieres evitar que tanto los rastreadores como los usuarios puedan acceder a una página? Usa otro método, como la protección con contraseña.
Cómo verificar Googlebot
Antes de bloquear a Googlebot, ten en cuenta que otros rastreadores suelen falsificar el encabezado de la solicitud HTTP user-agent
que usa Googlebot. Por lo tanto, es importante que verifiques si una
solicitud problemática realmente proviene de Google. La mejor forma de verificar si una solicitud proviene de Googlebot es
usar una búsqueda de DNS inversa
de la dirección IP de origen de la solicitud o comparar la dirección IP de origen con los
rangos de IP de Googlebot.