Descripción general de los rastreadores y sistemas de obtención de Google (user-agents)

Google utiliza rastreadores y sistemas de obtención para realizar las acciones relacionadas con sus productos, ya sea de forma automática o mediante solicitud de los usuarios. El término "rastreador" (a veces llamado "robot" o "araña") es el término genérico con el que se denomina a cualquier programa que se utilice para detectar y analizar automáticamente sitios web. Los fetchers actúan como un programa, como wget, que suele hacer una única solicitud en nombre de un usuario. Los clientes de Google se dividen en tres categorías:

Rastreadores habituales Los rastreadores habituales que se usan en los productos de Google (como el Googlebot). Siempre respetan las reglas de robots.txt en el caso de los rastreos automáticos.
Rastreadores para casos especiales Los rastreadores para casos especiales son similares a los rastreadores habituales, pero los utilizan productos específicos en los que existe un acuerdo entre el sitio rastreado y el producto de Google sobre el proceso de rastreo. Por ejemplo, AdsBot ignora el user-agent del archivo robots.txt global (*) con el permiso del editor del anuncio.
Sistemas de obtención activados por el usuario Los fetchers activados por el usuario forman parte de las herramientas y funciones de producto en las que el usuario final activa una obtención. Por ejemplo, Google Site Verifier actúa cuando lo solicitan los usuarios.

Propiedades técnicas de los rastreadores y fetchers de Google

Los rastreadores y los fetchers de Google están diseñados para ejecutarse simultáneamente en miles de ordenadores con el fin de mejorar el rendimiento y ajustar la escala a medida que la Web crece. Para optimizar el uso del ancho de banda, estos clientes se distribuyen en muchos centros de datos de todo el mundo, de modo que se encuentran cerca de los sitios a los que pueden acceder. Por tanto, es posible que tus registros muestren visitas de varias direcciones IP. Google sale principalmente de direcciones IP de Estados Unidos. Si Google detecta que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países.

Protocolos de transferencia compatibles

Los rastreadores y los fetchers de Google son compatibles con HTTP/1.1 y HTTP/2. Los rastreadores usarán la versión del protocolo que ofrezca el mejor rendimiento de rastreo y pueden cambiar de protocolo entre sesiones de rastreo en función de estadísticas de rastreo anteriores. La versión predeterminada del protocolo que utilizan los rastreadores de Google es HTTP/1.1. El rastreo mediante HTTP/2 puede ahorrar recursos informáticos (como la CPU o la RAM) en tu sitio y en el robot de Google, pero no supone ninguna ventaja específica para el sitio (por ejemplo, no se mejora el posicionamiento en la Búsqueda de Google). Si no quieres que tu sitio se rastree con HTTP/2, indica al servidor donde se aloja que, cuando Google intente acceder al sitio con HTTP/2, responda con un código de estado HTTP 421. Si no puedes hacerlo, envía un mensaje al equipo de Rastreo (aunque esta solución es temporal).

La infraestructura de rastreo de Google también admite el rastreo a través de FTP (como se define en RFC959 y sus actualizaciones) y FTPS (como se define en RFC4217 y sus actualizaciones), aunque es poco habitual rastrear a través de estos protocolos.

Codificaciones de contenido admitidas

Los rastreadores y los fetchers de Google admiten las siguientes codificaciones de contenido (compresiones): gzip, deflate y Brotli (br). Las codificaciones de contenido admitidas por cada agente de usuario de Google se anuncian en el encabezado Accept-Encoding de cada solicitud que hacen. Por ejemplo, Accept-Encoding: gzip, deflate, br.

Tasa de rastreo y carga del host

En cada visita, se intentan rastrear tantas páginas de tu sitio como permita el servidor. Si tu sitio tiene problemas para soportar todas las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo. Ten en cuenta que enviar el código de respuesta HTTP inadecuado a los rastreadores de Google puede afectar a la forma en que aparece tu sitio en los productos de Google.

Almacenamiento en caché HTTP

La infraestructura de rastreo de Google admite el almacenamiento en caché heurístico de HTTP, tal como se define en el estándar de almacenamiento en caché de HTTP, concretamente a través del encabezado de respuesta ETag y el encabezado de solicitud If-None-Match, y del encabezado de respuesta Last-Modified y el encabezado de solicitud If-Modified-Since.

Si en la respuesta HTTP están presentes los campos de encabezado de respuesta ETag y Last-Modified, los rastreadores de Google usarán el valor de ETag como requisito del estándar HTTP. En el caso de los rastreadores de Google, recomendamos usar ETag en lugar del encabezado Last-Modified para indicar la preferencia de almacenamiento en caché, ya que ETag no tiene problemas de formato de fecha.

No se admiten otras directivas de almacenamiento en caché de HTTP.

Los rastreadores y fetchers de Google pueden usar el almacenamiento en caché o no, según las necesidades del producto al que están asociados. Por ejemplo, Googlebot admite el almacenamiento en caché cuando vuelve a rastrear URLs para la Búsqueda de Google, y Storebot-Google solo admite el almacenamiento en caché en determinadas condiciones.

Para implementar el almacenamiento en caché HTTP en tu sitio, ponte en contacto con tu proveedor de alojamiento o de sistemas de gestión de contenido.

ETag y If-None-Match

La infraestructura de rastreo de Google admite ETag y If-None-Match tal como se definen en el estándar de almacenamiento en caché HTTP. Consulta más información sobre el encabezado de respuesta ETag y su homólogo, el encabezado de solicitud If-None-Match.

Last-Modified e If-Modified-Since

La infraestructura de rastreo de Google admite Last-Modified y If-Modified-Since tal como se define en el estándar de almacenamiento en caché HTTP, con las siguientes salvedades:

  • La fecha del encabezado Last-Modified debe tener el formato que se indica en el estándar HTTP. Para evitar problemas de análisis, te recomendamos que uses el siguiente formato de fecha: "Día de la semana, DD Mon YYYY HH:MM:SS Zona horaria". Por ejemplo, "Fri, 4 Sep 1998 19:15:56 GMT".
  • Aunque no es obligatorio, te recomendamos que también definas el campo max-age del encabezado de respuesta Cache-Control para ayudar a los rastreadores a determinar cuándo volver a rastrear la URL específica. Asigna al campo max-age el número de segundos que se espera que el contenido permanezca sin cambios. Por ejemplo, Cache-Control: max-age=94043.

Consulta más información sobre el encabezado de respuesta Last-Modified y su homólogo, el encabezado de solicitud If-Modified-Since.

Verificar los rastreadores y los fetchers de Google

Los rastreadores de Google se identifican de tres formas:

  1. El encabezado de solicitud HTTP user-agent.
  2. Dirección IP de origen de la solicitud.
  3. El nombre de host de DNS inverso de la IP de origen.

Consulta cómo usar estos detalles para verificar los rastreadores y los fetchers de Google.