Descripción general de los rastreadores y recuperadores de Google (usuarios-agentes)
Google usa rastreadores y recuperadores con el objetivo de realizar acciones para sus productos, ya sean automáticas o activadas por la solicitud de un usuario. El término "rastreador" (también llamado "robot" o "araña") es un término genérico que se usa para cualquier programa que descubre y analiza sitios web automáticamente. Los recuperadores actúan a modo de programas como wget que, por lo general, realiza una sola solicitud en nombre de un usuario. Los clientes de Google se dividen en tres categorías:
Rastreadores comunes | Los rastreadores comunes que se usan para los productos de Google (como Googlebot) Siempre respetan las reglas de robots.txt para los rastreos automáticos. |
Rastreadores de casos especiales |
Los rastreadores para casos específicos son similares a los rastreadores comunes, pero los usan productos específicos
cuando existe un acuerdo entre el sitio rastreado y el producto de Google sobre el proceso
de rastreo. Por ejemplo, AdsBot ignora el usuario-agente global de robots.txt
(* ) con el permiso del publicador del anuncio.
|
Recuperadores generados por el usuario | Los recuperadores activados por el usuario forman parte de las herramientas y funciones del producto en las que el usuario final activa una recuperación. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario. |
Propiedades técnicas de los rastreadores y recuperadores de Google
Los rastreadores y recuperadores de Google están diseñados para que miles de máquinas los ejecuten de manera simultánea con el objetivo de mejorar el rendimiento y ajustarse al crecimiento de la Web. Para optimizar el uso del ancho de banda, estos clientes se distribuyen en muchos centros de datos de todo el mundo, de modo que se encuentren cerca de los sitios a los que podrían acceder. Por lo tanto, es posible que en tus registros se muestren visitas de varias direcciones IP. Google realiza la salida principalmente desde direcciones IP en Estados Unidos. En caso de que Google detecte que un sitio bloquea las solicitudes de Estados Unidos, puede intentar hacer el rastreo desde direcciones IP ubicadas en otros países.
Protocolos de transferencia compatibles
Los rastreadores y recuperadores de Google admiten HTTP/1.1 y
HTTP/2. Los rastreadores usarán la versión del protocolo que proporcione el mejor rendimiento de rastreo y pueden cambiar de protocolo entre sesiones de rastreo según las estadísticas de rastreo anteriores. La versión de protocolo predeterminada que usan los rastreadores de Google es HTTP/1.1. El rastreo a través de HTTP/2 puede ahorrar recursos de procesamiento (por ejemplo, CPU o RAM) en tu sitio y en Googlebot. Sin embargo, no hay ningún beneficio específico del producto de Google para el sitio (por ejemplo, no hay un aumento de clasificación en la Búsqueda de Google).
Para inhabilitar el rastreo con HTTP/2, indícale al servidor donde se aloja tu sitio que responda con un código de estado HTTP 421
cuando Googlebot intente acceder con HTTP/2. Si eso no es posible, puedes
enviar un mensaje al equipo de Rastreo
(aunque esta solución es temporal).
La infraestructura del rastreador de Google también admite el rastreo a través de FTP (según se define en la RFC959 y sus actualizaciones) y FTPS (según se define en la RFC4217 y sus actualizaciones). Sin embargo, es raro que se rastree a través de estos protocolos.
Codificaciones de contenido compatibles
Los rastreadores y los recuperadores de Google admiten las siguientes codificaciones de contenido (compresiones):
gzip,
deflate y
Brotli (br). Las
codificaciones de contenido que admite cada usuario-agente de Google se anuncian en el
encabezado Accept-Encoding
de cada solicitud que realizan. Por ejemplo:
Accept-Encoding: gzip, deflate, br
.
Frecuencia de rastreo y carga del host
Nuestro objetivo es rastrear la mayor cantidad posible de páginas de tu sitio en cada visita sin sobrecargar el servidor. Si tu sitio tiene problemas para soportar las solicitudes de rastreo de Google, puedes reducir la frecuencia de rastreo. Ten en cuenta que enviar el código de respuesta HTTP incorrecto a los rastreadores de Google puede afectar la forma en que tu sitio aparece en los productos de Google.
Almacenamiento en caché HTTP
La infraestructura de rastreo de Google admite el almacenamiento en caché HTTP heurístico como se define en el
estándar de almacenamiento en caché HTTP, específicamente a través del encabezado de respuesta ETag
y el encabezado de solicitud
If-None-Match
, y el encabezado de respuesta Last-Modified
y el encabezado de solicitud
If-Modified-Since
.
Si los campos de encabezado de respuesta ETag
y Last-Modified
están presentes en la
respuesta HTTP, los rastreadores de Google usan el valor ETag
como
exige el estándar HTTP.
En el caso específico de los rastreadores de Google, te recomendamos que uses
ETag
en lugar del encabezado Last-Modified
para indicar la preferencia de almacenamiento en caché, ya que
ETag
no tiene problemas de formato de fecha.
No se admiten otras directivas de almacenamiento en caché HTTP.
Los rastreadores y recuperadores individuales de Google pueden usar o no el almacenamiento en caché, según las necesidades
del producto con el que están asociados. Por ejemplo, Googlebot
admite el almacenamiento en caché cuando
se vuelve a rastrear URLs para la Búsqueda de Google, y Storebot-Google
solo admite el almacenamiento en caché en
ciertas condiciones.
Para implementar el almacenamiento en caché HTTP en tu sitio, comunícate con tu proveedor de hosting o de sistema de administración de contenido.
ETag
y If-None-Match
La infraestructura de rastreo de Google admite ETag
y If-None-Match
como
se define en el
estándar de almacenamiento en caché HTTP.
Obtén más información sobre el
encabezado de respuesta ETag
y su equivalente de encabezado de solicitud,
If-None-Match
.
Last-Modified y If-Modified-Since
La infraestructura de rastreo de Google admite Last-Modified
y
If-Modified-Since
como se define en el
estándar de almacenamiento en caché HTTP
con las siguientes advertencias:
-
La fecha en el encabezado
Last-Modified
debe tener el formato según el estándar HTTP. Para evitar problemas de análisis, te recomendamos que uses el siguiente formato de fecha: "Día de la semana, zona horaria DD Mon YYYY HH:MM:SS". Por ejemplo: "Fri, 4 Sep 1998 19:15:56 GMT". -
Si bien no es obligatorio, considera configurar también el
campo
max-age
del encabezado de respuestaCache-Control
para ayudar a los rastreadores a determinar cuándo volver a rastrear la URL específica. Establece el valor del campomax-age
en la cantidad esperada de segundos que el contenido no cambiará. Por ejemplo:Cache-Control: max-age=94043
.
Obtén más información sobre el
encabezado de respuesta Last-Modified
y su equivalente de encabezado de solicitud, If-Modified-Since
.
Cómo verificar rastreadores y recuperadores de Google
Los rastreadores de Google se identifican de tres maneras:
-
El encabezado de la solicitud
user-agent
HTTP. - La dirección IP de origen de la solicitud.
- El nombre de host de DNS inverso de la IP de origen.
Obtén información para usar estos detalles para verificar los rastreadores y buscadores de Google.