Descripción general de los rastreadores y sistemas de obtención de Google (user-agents)

Google utiliza rastreadores y sistemas de obtención para realizar las acciones relacionadas con sus productos, ya sea de forma automática o mediante solicitud de los usuarios.

El término "rastreador" (a veces llamado "robot" o "araña") es el término genérico con el que se denomina a cualquier programa que se utilice para encontrar y analizar automáticamente sitios web siguiendo enlaces entre páginas web. El rastreador principal de Google que se utiliza para la Búsqueda de Google se llama robot de Google.

Los sistemas de obtención, al igual que un navegador, son herramientas que solicitan una única URL cuando el usuario lo solicita.

En las tablas siguientes se muestran los rastreadores y sistemas de obtención de Google que utilizan varios productos y servicios, cómo puedes verlos en tus registros de referencia y cómo especificarlos en el archivo robots.txt. Las listas no son exhaustivas, solo hacen referencia a los solicitantes más habituales que pueden aparecer en los archivos de registro.

  • En la columna Token de user-agent aparecen los valores que debes incluir en la línea User-agent: de tu archivo robots.txt si quieres dirigir una regla de rastreo a ese tipo de rastreador en concreto. Como se muestra en la tabla, algunos rastreadores tienen más de un token; en estos casos, basta con que incluyas uno de ellos en una regla para que el rastreador en cuestión la respete. Esta lista no es exhaustiva, pero incluye la mayoría de los rastreadores que pueden visitar tu sitio web.
  • Los valores de la columna Cadena de user-agent completa son las descripciones completas de cada rastreador, y son las cadenas que verás en las solicitudes HTTP y en tus registros web.

Rastreadores habituales

Los rastreadores habituales de Google se utilizan para buscar información con el fin de crear índices de búsqueda de Google, hacer otros rastreos específicos de productos y para los análisis. Siempre obedecen las reglas de robots.txt y generalmente rastrean desde los intervalos de IPs publicados en el objeto googlebot.json.

Rastreadores habituales
Token de user-agent Googlebot
Cadena de user-agent completa Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Token de user-agent Googlebot
Cadenas de user-agent completas
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36
  • Raramente:
    • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    • Googlebot/2.1 (+http://www.google.com/bot.html)

Se utiliza para rastrear las URLs de las imágenes de Google Imágenes y de los productos que dependen de imágenes.

Tokens de user-agent
  • Googlebot-Image
  • Googlebot
Cadena de user-agent completa Googlebot-Image/1.0

Googlebot-News utiliza el robot de Google para rastrear artículos periodísticos, pero respeta su token de user-agent antiguo Googlebot-News.

Tokens de user-agent
  • Googlebot-News
  • Googlebot
Cadena de user-agent completa El user-agent Googlebot-News utiliza diferentes cadenas de user-agent del robot de Google.

Se utiliza para rastrear las URLs de vídeo de Google Vídeos y para los productos que dependen de vídeos.

Tokens de user-agent
  • Googlebot-Video
  • Googlebot
Cadena de user-agent completa Googlebot-Video/1.0

Google StoreBot rastrea ciertos tipos de páginas, entre las que se incluyen las páginas de detalles de productos, las páginas del carrito y las páginas de tramitación de la compra.

Token de user-agent Storebot-Google
Cadenas de user-agent completas
  • User-agent en ordenadores:
    Mozilla/5.0 (X11; Linux x86_64; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Safari/537.36
  • User-agent en dispositivos móviles:
    Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; Storebot-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36

Google-InspectionTool es el rastreador que usan las herramientas de prueba de la Búsqueda, como la prueba de resultados enriquecidos y la inspección de URLs en Search Console. Aparte del user-agent y el token de user-agent, imita al robot de Google.

Tokens de user-agent
  • Google-InspectionTool
  • Googlebot
Cadena de user-agent completa
  • Dispositivos móviles
    Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Google-InspectionTool/1.0;)
  • Ordenadores
    Mozilla/5.0 (compatible; Google-InspectionTool/1.0;)

GoogleOther es el rastreador genérico que pueden utilizar diversos equipos de producto para obtener contenido de acceso público de sitios. Por ejemplo, puede usarse en rastreos únicos para fines de investigación y desarrollo internos.

Token de user-agent GoogleOther
Cadena de user-agent completa
  • Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; GoogleOther)
  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GoogleOther) Chrome/W.X.Y.Z Safari/537.36
  • GoogleOther

GoogleOther-Image es la versión de GoogleOther optimizada para obtener URLs de imágenes accesibles públicamente.

Tokens de user-agent
  • GoogleOther-Image
  • GoogleOther
Cadena de user-agent completa GoogleOther-Image/1.0

GoogleOther-Video es la versión de GoogleOther optimizada para obtener URLs de vídeos de acceso público.

Tokens de user-agent
  • GoogleOther-Video
  • GoogleOther
Cadena de user-agent completa GoogleOther-Video/1.0

Google-CloudVertexBot rastrea sitios a solicitud de los propietarios al crear agentes de Vertex AI.

Tokens de user-agent
  • Google-CloudVertexBot
  • Googlebot
Subcadena de user-agent Google-CloudVertexBot

Google-Extended es un token de producto independiente que los editores de sitios web pueden usar para gestionar si sus sitios ayudan a mejorar las APIs generativas de las aplicaciones de Gemini y Vertex AI, incluidas las generaciones futuras de los modelos que sustentan esos productos. Google-Extended no afecta a la inclusión ni al posicionamiento de los sitios en la Búsqueda de Google.

Token de user-agent Google-Extended
Cadena de user-agent completa Google-Extended no tiene una cadena de user-agent de solicitud HTTP independiente. El rastreo se hace con las cadenas de user-agent de Google. El token de user-agent de robots.txt se utiliza en como control.

Rastreadores para casos especiales

Los rastreadores para casos especiales los utilizan productos específicos en los que existe un acuerdo entre el sitio rastreado y el producto en relación con el proceso de rastreo. Por ejemplo, AdsBot ignora el user-agent del archivo robots.txt global (*) con el permiso del editor del anuncio. Es posible que los rastreadores para casos especiales ignoren las reglas de robots.txt, por lo que operan desde un intervalo de IPs distinto al de los rastreadores habituales. Los intervalos de IPs se publican en el objeto special-crawlers.json.

Rastreadores para casos especiales

Las APIs de Google lo utilizan para enviar mensajes de notificaciones push. Ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent APIs-Google
Cadena de user-agent completa APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)

Comprueba la calidad de los anuncios incluidos en las páginas web que se muestran en móviles. Ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent AdsBot-Google-Mobile
Cadena de user-agent completa Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Comprueba la calidad de los anuncios incluidos en las páginas web que se muestran en ordenadores. Ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent AdsBot-Google
Cadena de user-agent completa AdsBot-Google (+http://www.google.com/adsbot.html)

El rastreador de AdSense visita tu sitio para determinar su contenido y así proporcionar anuncios relevantes. Ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent Mediapartners-Google
Cadena de user-agent completa Mediapartners-Google

El rastreador de AdSense para móviles visita tu sitio para determinar su contenido y así proporcionar anuncios relevantes. Ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent Mediapartners-Google
Cadena de user-agent completa (Various mobile device types) (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)

El user-agent Google-Safety gestiona el rastreo específico de usos inadecuados, como la detección de malware en enlaces publicados de forma pública en las propiedades de Google. Este user-agent ignora las reglas del archivo robots.txt.

Cadena de user-agent completa Google-Safety

Sistemas de obtención activados por el usuario

Los usuarios activan los fetchers activados por el usuario para que realicen una función específica del producto. Por ejemplo, Google Site Verifier actúa cuando lo solicitan los usuarios, o un sitio alojado en Google Cloud (GCP) tiene una función que permite a los usuarios del sitio recuperar un feed RSS externo. Dado que los usuarios solicitan la obtención, estos sistemas generalmente ignoran las reglas de robots.txt. Los intervalos de IPs que utilizan los fetchers activados por el usuariose publican en los objetos user-triggered-fetchers.json y user-triggered-fetchers-google.json.

Sistemas de obtención activados por el usuario

Feedfetcher se utiliza para rastrear los feeds RSS o Atom de Google Podcasts, Google News y PubSubHubbub.

Token de user-agent FeedFetcher-Google
Cadena de user-agent completa FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Obtiene y procesa feeds que los editores han proporcionado explícitamente a través del Centro de editores de Google para usarlos en las páginas de destino de Google News.

Cadena de user-agent completa GoogleProducer; (+https://developers.google.com/search/docs/crawling-indexing/overview-google-crawlers#googleproducer)

Cuando lo solicita un usuario, Google Read Aloud obtiene y lee en voz alta páginas web mediante la conversión de texto a voz (TTS).

Cadenas de user-agent completas

User-agents activos:

  • User-agent en ordenadores:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)
  • User-agent en dispositivos móviles:
    Mozilla/5.0 (Linux; Android 7.0; SM-G930V Build/NRD90M) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.125 Mobile Safari/537.36 (compatible; Google-Read-Aloud; +https://support.google.com/webmasters/answer/1061943)

User-agent antiguo (obsoleto):

google-speakr

Google Site Verifier obtiene tokens de verificación de Search Console cuando el usuario lo solicita.

Cadena de user-agent completa Mozilla/5.0 (compatible; Google-Site-Verification/1.0)

Nota sobre Chrome/W.X.Y.Z en user-agents

Cuando veas la cadena Chrome/W.X.Y.Z en los user-agents de la tabla, ten en cuenta que W.X.Y.Z es un marcador de posición que representa la versión del navegador Chrome que usa ese user-agent (por ejemplo, 41.0.2272.96). Este número irá aumentando con el tiempo para reflejar la versión más reciente de Chromium que utiliza el robot de Google.

Si buscas en tus registros o filtras tu servidor por un user-agent que tenga este patrón, te recomendamos que no indiques un número de versión exacto, sino que utilices comodines.

User-agents en archivos robots.txt

Si en un archivo robots.txt se reconocen varios user-agents, Google seguirá el más concreto. Si quieres que todos los rastreadores de Google puedan rastrear tus páginas, no hace falta que utilices ningún archivo robots.txt. Para bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica el user-agent "Googlebot". Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, para impedir que determinadas páginas aparezcan en Google, basta con que bloquees el user-agent Googlebot de modo que no pueda acceder a ellas; así bloquearás también todos los demás user-agents de Google.

Si lo que quieres es tener un control más preciso, puedes usar restricciones más concretas. Por ejemplo, pongamos que quieres que todas tus páginas aparezcan en la Búsqueda de Google pero que no se rastreen imágenes de tu directorio personal. En ese caso, puedes configurar del siguiente modo el archivo robots.txt para evitar que el user-agent Googlebot-Image rastree los archivos de tu directorio personal (pero permitir que el robot de Google rastree todos los archivos):

User-agent: Googlebot
Disallow:

User-agent: Googlebot-Image
Disallow: /personal

Veamos otro ejemplo. Si quieres que se muestren anuncios en todas tus páginas, pero no quieres que esas páginas aparezcan en la Búsqueda de Google, bloquea el robot de Google y permite Mediapartners-Google, tal como se muestra a continuación:

User-agent: Googlebot
Disallow: /

User-agent: Mediapartners-Google
Disallow:

Controlar la frecuencia de rastreo

Cada rastreador de Google accede a los sitios con una finalidad concreta y con distinta frecuencia. Google usa algoritmos para determinar la frecuencia óptima de rastreo en cada sitio. Si un rastreador de Google rastrea tu sitio con demasiada frecuencia, puedes reducir su frecuencia de rastreo.

Rastreadores de Google retirados

Los siguientes rastreadores de Google ya no se utilizan y solo se indican aquí a modo de historial.

Rastreadores de Google retirados

Duplex web

Admitía el servicio Duplex web.

Token de user-agent DuplexWeb-Google
Cadena de user-agent completa Mozilla/5.0 (Linux; Android 11; Pixel 2; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Mobile Safari/537.36

Web Light

Comprobaba si estaba presente el encabezado no-transform cuando un usuario hacía clic en tu página en la Búsqueda si cumplía las condiciones adecuadas. El user-agent de Web Light solo se usaba cuando una persona solicitaba expresamente una página, por lo que ignoraba las reglas de robots.txt, que sirven para bloquear las solicitudes de rastreo automatizadas.

Token de user-agent googleweblight
Cadena de user-agent completa Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19

Comprueba la calidad de los anuncios incluidos en las páginas web que se muestran en dispositivos iPhone. Ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent AdsBot-Google-Mobile
Cadena de user-agent completa Mozilla/5.0 (iPhone; CPU iPhone OS 14_7_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/14.1.2 Mobile/15E148 Safari/604.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

Comprueba la calidad de los anuncios incluidos en las páginas web que se muestran en aplicaciones Android. Obedece las reglas de los robots de AdsBot-Google, pero ignora el user-agent global (*) del archivo robots.txt.

Token de user-agent AdsBot-Google-Mobile-Apps
Cadena de user-agent completa AdsBot-Google-Mobile-Apps
Tokens de user-agent
  • Googlebot-Image
  • Googlebot
Cadena de user-agent completa Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon