El término "rastreador" se utiliza de forma genérica para hacer referencia a cualquier programa (como un robot o una araña) que detecta y analiza automáticamente sitios web siguiendo vínculos de una página a otra. El rastreador principal de Google se llama robot de Google. En la tabla que aparece a continuación, se incluyen datos sobre los rastreadores habituales de Google que puedes encontrar en tus registros de referencia, y cómo deberían especificarse en robots.txt, en las metaetiquetas robots y en las directivas HTTP X-Robots-Tag.
En la siguiente tabla, se indican los rastreadores que usan diferentes productos y servicios de Google:
- El token de usuario-agente se usa en la línea
User-agent:
de robots.txt para que coincida con un tipo de rastreador cuando escribes las reglas de rastreo correspondientes a tu sitio. Algunos rastreadores tienen más de un token, como se puede ver en la tabla. En esos casos, basta con unir un solo token de rastreo para que se aplique una regla. La lista no es exhaustiva, pero abarca la mayoría de los rastreadores que podrías ver en tu sitio web. - La string de usuario-agente completa es la descripción entera del rastreador, y aparece en la solicitud y en tus registros web.
Rastreador | Token de usuario-agente (token de producto) | String de usuario-agente completa |
---|---|---|
APIs-Google |
|
APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html) |
AdSense |
|
Mediapartners-Google |
AdsBot para Web móvil en Android (Comprueba la calidad de los anuncios de las páginas web en dispositivos Android) |
|
Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, like Gecko) Chrome Mobile Safari (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Comprueba la calidad de los anuncios de las páginas web en dispositivos iPhone) |
|
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html) |
(Comprueba la calidad de los anuncios de las páginas web en computadoras de escritorio) |
|
AdsBot-Google (+http://www.google.com/adsbot.html ) |
Imagen de Googlebot |
|
Googlebot-Image/1.0 |
Googlebot para Noticias |
|
Googlebot-News |
Googlebot para video |
|
Googlebot-Video/1.0 |
Googlebot para computadoras de escritorio |
|
|
Googlebot para smartphones |
|
|
AdSense para dispositivos móviles |
|
(En varios tipos de dispositivos móviles) (compatible; Mediapartners-Google/2.1 ; +http://www.google.com/bot.html ) |
Apps de Android para dispositivos móviles (Comprueba la calidad de los anuncios de las páginas para apps de Android. Sigue las reglas de los robots de AdsBot-Google.) |
|
AdsBot-Google-Mobile-Apps |
|
|
|
|
Agentes actuales:
Agente anterior (obsoleto): |
|
Duplex en la Web |
|
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36 |
Ícono de página de Google (Recupera íconos de página para varios servicios) |
Para las solicitudes que inició el usuario, ignora las reglas de robots.txt |
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon |
Web Light |
|
Mozilla/5.0 (Linux; Android 4.2.1; en-us; Nexus 5 Build/JOP40D) AppleWebKit/535.19 (KHTML, like Gecko; googleweblight) Chrome/38.0.1025.166 Mobile Safari/535.19 |
Google StoreBot | Storebot-Google |
Agente para computadoras de escritorio:
Agente para dispositivos móviles:
|
Agentes-usuarios en robots.txt
Si en un archivo robots.txt se reconocen varios usuarios-agentes, Google seguirá los más específicos. Si quieres que Google rastree tus páginas, no necesitas un archivo robots.txt. Si quieres bloquear o permitir el acceso de todos los rastreadores de Google a parte de tu contenido, especifica que Googlebot sea el usuario-agente. Por ejemplo, si quieres que todas tus páginas aparezcan en la Búsqueda de Google y que se muestren anuncios de AdSense en ellas, no necesitas un archivo robots.txt. Del mismo modo, si quieres evitar que los rastreadores de Google accedan a algunas páginas, puedes bloquear el usuario-agente Googlebot
para que también se bloquee el resto de los usuarios-agentes.
Si prefieres llevar un control más preciso, puedes aplicar una restricción más específica. Quizás te gustaría que todas tus páginas aparezcan en la Búsqueda de Google, pero que no se rastreen las imágenes de tu directorio personal. En ese caso, puedes usar robots.txt para inhabilitar el usuario-agente Googlebot-Image
a fin de que deje de rastrear los archivos de tu directorio personal (pero permitir que Googlebot rastree todos los archivos) de la siguiente manera:
User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personalPara poner otro ejemplo, si quieres que todas tus páginas tengan anuncios, pero no quieres que estas aparezcan en la Búsqueda de Google, bloquea Googlebot y permite que funcione el usuario-agente
Mediapartners-Google
, de la siguiente manera:
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
Usuarios-agentes en las metaetiquetas robots
Algunas páginas usan varias metaetiquetas robots a fin de especificar directivas para distintos rastreadores de la siguiente manera:
<meta name="robots" content="nofollow"> <meta name="googlebot" content="noindex">
En este caso, Google usará la suma de las directivas negativas, y Googlebot seguirá las directivas noindex
y nofollow
. Obtén más información detallada sobre cómo controlar la manera en que Google indexa y rastrea tu sitio.