Valider les requêtes des robots d'exploration et des extracteurs Google

Vous pouvez vérifier que le robot d'exploration qui accède à votre serveur est réellement un robot Google, comme Googlebot. Cela est utile si vous suspectez que des spammeurs ou d'autres personnes mal intentionnées accèdent à votre site en se faisant passer pour Googlebot.

Les robots d'exploration Google appartiennent à trois catégories :

Type	Description	Masque DNS inversé	Plages d'adresses IP
Robots d'exploration communs	Les robots d'exploration communs utilisés pour les produits Google (comme Googlebot). Ils respectent toujours les règles du fichier robots.txt pour les explorations automatiques.	`crawl-*---.googlebot.com` ou `geo-crawl----*.geo.googlebot.com`	googlebot.json
Robots d'exploration spéciaux	Robots d'exploration qui exécutent des fonctions spécifiques pour les produits Google (AdsBot, par exemple) et qui font l'objet d'un accord entre le site exploré et le produit concerné. Ces robots d'exploration peuvent respecter ou non les règles du fichier robots.txt.	`rate-limited-proxy-*---*.google.com`	special-crawlers.json
Extracteurs déclenchés par l'utilisateur	Outils et fonctions produit dans lesquels l'utilisateur final déclenche une extraction. Par exemple, Google Site Verifier agit à la demande d'un utilisateur. Étant donné que l'exploration a été demandée par un utilisateur, ces outils ignorent les règles du fichier robots.txt. Les extracteurs contrôlés par Google proviennent des adresses IP de l'objet `user-triggered-fetchers-google.json` et renvoient à un nom d'hôte `google.com`. Les adresses IP de l'objet `user-triggered-fetchers.json` renvoient à des noms d'hôte `gae.googleusercontent.com`. Ces adresses IP sont utilisées, par exemple, si un site exécuté sur Google Cloud (GCP) dispose d'une fonctionnalité qui nécessite de récupérer des flux RSS externes sur demande de l'utilisateur de ce site.	`*---.gae.googleusercontent.com` ou `google-proxy----*.google.com`	user-triggered-fetchers.json et user-triggered-fetchers-google.json

Deux méthodes permettent de valider les robots d'exploration Google :

Méthode manuelle : pour les recherches ponctuelles, utilisez les outils de ligne de commande. Cette méthode est suffisante dans la plupart des cas.
Méthode automatique : pour les recherches plus générales, utilisez une solution automatique permettant d'établir une correspondance entre l'adresse IP d'un robot d'exploration et la liste des adresses IP Googlebot publiées.

Utiliser les outils de ligne de commande

À l'aide de la commande host, exécutez une résolution DNS inverse sur l'adresse IP utilisée dans vos journaux.
Vérifiez que le nom de domaine est googlebot.com, google.com ou googleusercontent.com.
Effectuez une résolution DNS directe sur le nom de domaine récupéré à l'étape 1 à l'aide de la commande host.
Vérifiez qu'il s'agit de la même adresse IP que celle utilisée dans vos journaux.

Exemple 1 :

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Exemple 2 :

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Exemple 3 :

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Utiliser des solutions automatiques

Vous pouvez également identifier Googlebot avec l'adresse IP, en établissant une correspondance entre l'adresse IP du robot d'exploration et la liste des adresses IP des robots d'exploration et des extracteurs Google :

Pour les autres adresses IP Google à partir desquelles vous pouvez accéder à votre site (par exemple, via Apps Script), faites correspondre l'adresse IP à la liste générale des adresses IP Google. Notez que les adresses IP dans les fichiers JSON sont représentées au format CIDR.