Googlebot

El robot de Google es el nombre genérico de los dos tipos de rastreadores web que utiliza la Búsqueda de Google:

Robot de Google para smartphones: se trata de un rastreador para móviles que simula un usuario en un dispositivo móvil.
Robot de Google para ordenadores: se trata de un rastreador para ordenadores que simula un usuario en un ordenador.

Puedes saber cuál te ha rastreado consultando el encabezado de solicitud HTTP user-agent. Como ambos rastreadores siguen las reglas del mismo token de producto (token de user-agent) de robots.txt, no puedes elegir de forma exclusiva a uno u otro en tu archivo robots.txt.

En la mayoría de los sitios, la Búsqueda de Google indexa principalmente la versión para móviles del contenido. Por tanto, la mayor parte de las solicitudes de rastreo del robot de Google se harán a través del rastreador para móviles, y solo una parte muy pequeña provendrá del rastreador para ordenadores.

Cómo accede el robot de Google a los sitios

De media, el robot de Google no suele acceder a la mayoría de los sitios más de una vez cada pocos segundos. Sin embargo, si se producen retrasos, puede que esta frecuencia de rastreo aumente ligeramente durante breves periodos. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo.

Cuando el robot de Google rastrea contenido para la Búsqueda de Google, solo explora los primeros 2 MB de los tipos de archivo compatibles y los primeros 64 MB de los archivos PDF. Desde el punto de vista de la renderización, cada recurso al que se hace referencia en el HTML (como CSS y JavaScript) se obtiene por separado, y cada obtención de recursos está sujeta al mismo límite de tamaño de archivo que se aplica a otros archivos (excepto los PDFs).
Una vez que se alcanza el límite, el robot de Google detiene la obtención y solo envía la parte del archivo que ya se ha descargado para que se tenga en cuenta en la indexación. El límite de tamaño de archivo se aplica a los datos sin comprimir. Es posible que otros rastreadores de Google, como el robot de Google para vídeos y el robot de Google para imágenes, tengan límites diferentes.

Cuando se rastrea desde direcciones IP de EE. UU., la zona horaria del robot de Google es la hora del Pacífico.

Se describen otras propiedades técnicas del robot de Google en la descripción general de los rastreadores de Google.

Impedir que el robot de Google acceda a un sitio

El robot de Google descubre nuevas URLs que rastrear principalmente a partir de enlaces insertados en páginas rastreadas anteriormente. Resulta prácticamente imposible no publicar enlaces a un sitio para mantenerlo en secreto. Por ejemplo, en el momento en que un usuario haga clic en un enlace de tu sitio "secreto" para acceder a otro sitio, tu URL "secreta" podrá aparecer en la etiqueta de referencia, y el otro sitio podrá almacenarla y publicarla en su registro de referencia.

Si no quieres que el robot de Google rastree contenido de tu sitio, tienes varias opciones. Recuerda que hay una diferencia entre el rastreo y la indexación. Si bloqueas el rastreo del robot de Google en una página, no se impide que la URL de la página aparezca en los resultados de búsqueda:

¿Cómo puedo impedir que el robot de Google rastree una página? Utiliza un archivo robots.txt.
¿No quieres que Google indexe una página? Usa noindex.
¿Se puede impedir que tanto rastreadores como usuarios puedan acceder a una página? Usa otro método, como la protección de contraseñas.

Bloquear al robot de Google afecta a la Búsqueda de Google (incluidas Discover y todas las funciones de la Búsqueda de Google), así como a otros productos como Google Imágenes, Google Vídeo y Google News.

Comprobar que sea el robot de Google

Hay rastreadores que falsifican el encabezado de solicitud HTTP user-agent del robot de Google, por lo que, antes de bloquearlo, comprueba que las solicitudes problemáticas que detectes de verdad procedan de Google. La mejor forma de hacerlo es mediante una petición de DNS invertida de la IP de origen de la solicitud o comparando la IP de origen con los intervalos de IP del robot de Google.