Verificación de Googlebot y otros rastreadores de Google
Puedes verificar si un rastreador web que accede a tu servidor es realmente un rastreador de Google, como Googlebot. Esta opción es útil si te preocupa que generadores de spam o de contenido problemático accedan a tu sitio haciéndose pasar por Googlebot.
Los rastreadores de Google se dividen en tres categorías:
Tipo | Descripción | Máscara de DNS inversa | Rangos de IP |
---|---|---|---|
Googlebot | Es el rastreador principal de los productos de búsqueda de Google. Siempre respeta las reglas de robots.txt. |
crawl-***-***-***-***.googlebot.com o
geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Rastreadores de casos especiales | Rastreadores que realizan funciones específicas (como AdsBot), que pueden o no respetar las reglas de robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Recuperadores generados por el usuario |
Herramientas y funciones del producto en las que el usuario final activa una recuperación. Por ejemplo, Google Site Verifier actúa sobre la solicitud de un usuario. Debido a que un usuario solicitó la recuperación, estos recursos ignoran las reglas de robots.txt. Los recuperadores controlados por Google se originan a partir de IPs en el objeto user-triggered-fetchers-google.json y se resuelven en un
nombre de host google.com . Las IPs del objeto user-triggered-fetchers.json se resuelven en nombres de host gae.googleusercontent.com . Estas IPs se usan, por ejemplo, si un sitio que se ejecuta en Google Cloud (GCP) tiene una función que requiere la recuperación de feeds RSS externos a pedido del usuario de ese sitio.
|
***-***-***-***.gae.googleusercontent.com o
google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json y user-triggered-fetchers-google.json |
Existen dos métodos para verificar los rastreadores de Google:
- Manualmente: Para búsquedas únicas, usa herramientas de línea de comandos. Este método es suficiente para la mayoría de los casos de uso.
- Automáticamente: Para las búsquedas a gran escala, usa una solución automática para que haga coincidir la dirección IP de un rastreador con la lista de direcciones IP de Googlebot publicadas.
Usa herramientas de línea de comandos
-
Ejecuta una búsqueda de DNS inversa en la dirección IP de acceso desde tus registros con el comando
host
. -
Verifica que el nombre de dominio sea
googlebot.com
,google.com
, ogoogleusercontent.com
. -
Ejecuta una búsqueda de DNS directa en el nombre de dominio recuperado en el Paso 1 con el comando
host
en el nombre de dominio recuperado. - Verifica que sea la misma que la dirección IP original de acceso desde tus registros.
Ejemplo 1:
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Ejemplo 2:
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Ejemplo 3:
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Usa soluciones automáticas
Otra forma de identificar a Googlebot por dirección IP es hacer coincidir la dirección IP del rastreador con las listas de rangos de IP de los rastreadores y recuperadores de Google:
En el caso de otras direcciones IP de Google desde las que se puede acceder a tu sitio (por ejemplo, Apps Script), vincula la dirección IP de acceso con la lista de direcciones IP de Google. Ten en cuenta que las direcciones IP en los archivos JSON se representan en formato CIDR.