Googlebot

Googlebot es el nombre genérico de los dos tipos de rastreadores web que usa la Búsqueda de Google:

Googlebot para smartphones: Es un rastreador para dispositivos móviles que se hace pasar por un usuario en un dispositivo móvil.
Googlebot para computadoras de escritorio: Es un rastreador para computadoras de escritorio que se hace pasar por un usuario en una computadora.

Puedes identificar el subtipo de Googlebot mediante el encabezado de la solicitud HTTPuser-agent en la solicitud. Sin embargo, ambos tipos de rastreadores obedecen al mismo token de producto (token de usuario-agente) en robots.txt. Por ese motivo, no puedes elegir de forma exclusiva Googlebot para smartphones o Googlebot para computadoras de escritorio a través de robots.txt.

En la mayoría de los sitios, la Búsqueda de Google indexa principalmente la versión para dispositivos móviles del contenido. Por lo tanto, la mayor parte de las solicitudes de rastreo de Googlebot se harán a través del rastreador para dispositivos móviles, y una parte mucho menor provendrá del rastreador para computadoras de escritorio.

Cómo accede Googlebot a tu sitio

En promedio, no es frecuente que Googlebot acceda a los sitios más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, es posible que la frecuencia parezca ligeramente superior durante períodos breves. Si tu sitio tiene problemas para soportar las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.

Googlebot puede rastrear los primeros 15 MB de los archivos HTML o de los archivos basados en texto compatibles. Cada recurso al que se hace referencia en el código HTML, como CSS y JavaScript, se recupera por separado, y cada recuperación está vinculada por el mismo límite de tamaño de archivo. Después de los primeros 15 MB del archivo, Googlebot deja de rastrear y solo tiene en cuenta los primeros 15 MB del archivo para indexarlo. El límite de tamaño del archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como Googlebot para videos y Googlebot para imágenes, tengan límites diferentes.

Cuando el rastreo proviene de direcciones IP de EE.UU., se toma como referencia la zona horaria de la hora del Pacífico.

En la descripción general de los rastreadores de Google, se describen otras propiedades técnicas de Googlebot.

Cómo bloquear a Googlebot en tu sitio

Googlebot descubre URLs nuevas para rastrear principalmente a partir de vínculos incorporados en páginas ya rastreadas. Es casi imposible mantener un sitio en secreto, aunque no publiques vínculos que lleven a él. Por ejemplo, una vez que alguien sigue un vínculo de tu sitio "secreto" a otro, puede aparecer la URL de tu sitio "secreto" en la etiqueta de URL de referencia, y el otro sitio puede almacenarla y publicarla en su registro de URL de referencia.

Si no quieres que Googlebot rastree contenido de tu sitio, tienes varias opciones para evitarlo. Recuerda que existe una diferencia entre el rastreo y la indexación; impedir que Googlebot rastree una página no impide que su URL aparezca en los resultados de la búsqueda:

¿Quieres evitar que Googlebot rastree una página? Usa un archivo robots.txt.
¿No quieres que Google indexe una página? Usa noindex.
¿Quieres evitar que tanto los rastreadores como los usuarios puedan acceder a una página? Usa otro método, como la protección con contraseña.

Si bloqueas Googlebot, se verá afectada la Búsqueda de Google (lo que incluye Descubre y todas las funciones de la Búsqueda de Google), además de otros productos, como Google Imágenes, Google Video y Google Noticias.

Cómo verificar Googlebot

Antes de bloquear a Googlebot, ten en cuenta que otros rastreadores suelen falsificar el encabezado de la solicitud HTTP user-agent que usa Googlebot. Por lo tanto, es importante que verifiques si una solicitud problemática realmente proviene de Google. La mejor forma de verificar si una solicitud proviene de Googlebot es usar una búsqueda de DNS inversa de la dirección IP de origen de la solicitud o comparar la dirección IP de origen con los rangos de IP de Googlebot.