Validation de Googlebot et des autres robots d'exploration Google
Vous pouvez vérifier que le robot d'exploration qui accède à votre serveur est réellement un robot Google, comme Googlebot. Cela est utile si vous suspectez que des spammeurs ou d'autres personnes mal intentionnées accèdent à votre site en se faisant passer pour Googlebot.
Les robots d'exploration Google appartiennent à trois catégories :
Type | Description | Masque DNS inversé | Plages d'adresses IP |
---|---|---|---|
Googlebot | Robot d'exploration principal pour les produits de la recherche Google. Respecte toujours les règles du fichier robots.txt. |
crawl-***-***-***-***.googlebot.com ou geo-crawl-***-***-***-***.geo.googlebot.com
|
googlebot.json |
Robots d'exploration spéciaux | Robots d'exploration qui exécutent des fonctions spécifiques (AdsBot, par exemple), qui peuvent ou non respecter les règles du fichier robots.txt. | rate-limited-proxy-***-***-***-***.google.com |
special-crawlers.json |
Extracteurs déclenchés par l'utilisateur |
Outils et fonctions produit dans lesquels l'utilisateur final déclenche une extraction. Par exemple, Google Site Verifier agit à la demande d'un utilisateur. Étant donné que l'exploration a été demandée par un utilisateur, ces outils ignorent les règles du fichier robots.txt. Les extracteurs contrôlés par Google proviennent des adresses IP de l'objet user-triggered-fetchers-google.json et renvoient à un nom d'hôte google.com . Les adresses IP de l'objet user-triggered-fetchers.json renvoient à des noms d'hôte gae.googleusercontent.com . Ces adresses IP sont utilisées, par exemple, si un site exécuté sur Google Cloud (GCP) dispose d'une fonctionnalité qui nécessite d'extraire des flux RSS externes à la demande de l'utilisateur de ce site.
|
***-***-***-***.gae.googleusercontent.com ou google-proxy-***-***-***-***.google.com
|
user-triggered-fetchers.json et user-triggered-fetchers-google.json |
Deux méthodes permettent de valider les robots d'exploration Google :
- Méthode manuelle : pour les recherches ponctuelles, utilisez les outils de ligne de commande. Cette méthode est suffisante dans la plupart des cas.
- Méthode automatique : pour les recherches plus générales, utilisez une solution automatique permettant d'établir une correspondance entre l'adresse IP d'un robot d'exploration et la liste des adresses IP Googlebot publiées.
Utiliser les outils de ligne de commande
-
À l'aide de la commande
host
, exécutez une résolution DNS inverse sur l'adresse IP utilisée dans vos journaux. - Vérifiez que le nom de domaine est
googlebot.com
,google.com
ougoogleusercontent.com
. -
Effectuez une résolution DNS directe sur le nom de domaine récupéré à l'étape 1 à l'aide de la commande
host
. - Vérifiez qu'il s'agit de la même adresse IP que celle utilisée dans vos journaux.
Exemple 1 :
host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Exemple 2 :
host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240
Exemple 3 :
host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77
Utiliser des solutions automatiques
Vous pouvez également identifier Googlebot avec l'adresse IP, en établissant une correspondance entre l'adresse IP du robot d'exploration et la liste des adresses IP des robots d'exploration et des extracteurs Google :
Pour les autres adresses IP Google à partir desquelles vous pouvez accéder à votre site (par exemple, via Apps Script), faites correspondre l'adresse IP à la liste générale des adresses IP Google. Notez que les adresses IP dans les fichiers JSON sont représentées au format CIDR.