Verificar el robot de Google y otros rastreadores de Google
Puedes comprobar si un rastreador web que accede a tu servidor es realmente un rastreador de Google (por ejemplo, el robot de Google). Esto resulta útil si te preocupa que los spammers u otras personas malintencionadas puedan acceder a tu sitio haciéndose pasar por el robot de Google.
Los rastreadores de Google se dividen en tres categorías:
Tipo | Descripción | Máscara de DNS invertida | Intervalos de IPs |
---|---|---|---|
Rastreadores habituales | Los rastreadores habituales que se usan en los productos de Google (como el robot de Google). Siempre respetan las reglas de robots.txt en el caso de los rastreos automáticos. |
crawl-***-***-***-***.googlebot.com o geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Rastreadores para casos especiales | Rastreadores que realizan funciones específicas para productos de Google (como AdsBot) cuando hay un acuerdo entre el sitio rastreado y el producto sobre el proceso de rastreo. Estos rastreadores pueden o no respetar las reglas del archivo robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Sistemas de obtención activados por el usuario |
Herramientas y funciones de producto en las que el usuario final activa una obtención. Por ejemplo, Google Site Verifier actúa cuando lo solicitan los usuarios. Dado que los usuarios solicitan la obtención, estos sistemas ignoran las reglas de robots.txt. Los fetchers controlados por Google proceden de IPs del objeto user-triggered-fetchers-google.json y se resuelven en un nombre de host google.com . Las IPs del objeto user-triggered-fetchers.json se resuelven en nombres de host gae.googleusercontent.com Estas IP se usan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere obtener RSS externos a petición del usuario de ese sitio.
|
***-***-***-***.gae.googleusercontent.com o google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json y user-triggered-fetchers-google.json |
Hay dos métodos para verificar los rastreadores de Google:
- Manualmente: para hacer búsquedas únicas, utiliza herramientas de línea de comandos. Este método es suficiente para la mayoría de los casos prácticos.
- Automáticamente: para hacer búsquedas a gran escala, utiliza una solución automática para que la dirección IP de un rastreador coincida con la lista de direcciones IP del robot de Google publicadas.
Usar herramientas de línea de comandos
-
Busca en tus registros la dirección IP que está accediendo a tu servidor y haz una petición de DNS invertida con ella mediante el comando
host
. -
Verifica que el nombre de dominio es
googlebot.com
,google.com
ogoogleusercontent.com
. -
Ejecuta una petición de DNS normal con el nombre de dominio que hayas obtenido en el paso 1; para hacerlo, usa el comando
host
en el nombre de dominio. - Verifica que es la misma dirección IP de acceso original que figura en tus registros.
Ejemplo 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Ejemplo 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Ejemplo 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Usar soluciones automáticas
También puedes identificar el robot de Google según la dirección IP haciendo coincidir la dirección IP del rastreador con las listas de intervalos de IPs de los rastreadores y sistemas de obtención de Google:
- Rastreadores habituales como el robot de Google
- Rastreadores especiales como AdsBot
- Fetchers activados por el usuario (usuarios)
- Fetchers activados por el usuario (Google)
Para otras direcciones IP de Google desde las que se pueda acceder a tu sitio (por ejemplo, Apps Script), haz coincidir la dirección IP de acceso con la de la lista de direcciones IP de Google. Ten en cuenta que las direcciones IP de los archivos JSON se representan en formato CIDR.