Validation de Googlebot et des autres robots d'exploration Google

Vous pouvez vérifier que le robot d'exploration qui accède à votre serveur est réellement un robot Google, comme Googlebot. Cela est utile si vous suspectez que des spammeurs ou d'autres personnes mal intentionnées accèdent à votre site en se faisant passer pour Googlebot.

Les robots d'exploration Google appartiennent à trois catégories :

Type Description Masque DNS inversé Plages d'adresses IP
Googlebot Robot d'exploration principal pour les produits de la recherche Google. Respecte toujours les règles du fichier robots.txt. crawl-***-***-***-***.googlebot.com ou geo-crawl-***-***-***-***.geo.googlebot.com googlebot.json
Robots d'exploration spéciaux Robots d'exploration qui exécutent des fonctions spécifiques (AdsBot, par exemple), qui peuvent ou non respecter les règles du fichier robots.txt. rate-limited-proxy-***-***-***-***.google.com special-crawlers.json
Extracteurs déclenchés par l'utilisateur Outils et fonctions produit dans lesquels l'utilisateur final déclenche une extraction. Par exemple, Google Site Verifier agit à la demande d'un utilisateur. Étant donné que l'exploration a été demandée par un utilisateur, ces outils ignorent les règles du fichier robots.txt. ***-***-***-***.gae.googleusercontent.com user-triggered-fetchers.json

Deux méthodes permettent de valider les robots d'exploration Google :

  • Méthode manuelle : pour les recherches ponctuelles, utilisez les outils de ligne de commande. Cette méthode est suffisante dans la plupart des cas.
  • Méthode automatique : pour les recherches plus générales, utilisez une solution automatique permettant d'établir une correspondance entre l'adresse IP d'un robot d'exploration et la liste des adresses IP Googlebot publiées.

Utiliser les outils de ligne de commande

  1. À l'aide de la commande host, exécutez une résolution DNS inverse sur l'adresse IP utilisée dans vos journaux.
  2. Vérifiez que le nom de domaine est googlebot.com, google.com ou googleusercontent.com.
  3. Effectuez une résolution DNS directe sur le nom de domaine récupéré à l'étape 1 à l'aide de la commande host.
  4. Vérifiez qu'il s'agit de la même adresse IP que celle utilisée dans vos journaux.

Exemple 1 :

host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Exemple 2 :

host 35.247.243.240
240.243.247.35.in-addr.arpa domain name pointer geo-crawl-35-247-243-240.geo.googlebot.com.

host geo-crawl-35-247-243-240.geo.googlebot.com
geo-crawl-35-247-243-240.geo.googlebot.com has address 35.247.243.240

Exemple 3 :

host 66.249.90.77
77.90.249.66.in-addr.arpa domain name pointer rate-limited-proxy-66-249-90-77.google.com.

host rate-limited-proxy-66-249-90-77.google.com
rate-limited-proxy-66-249-90-77.google.com has address 66.249.90.77

Utiliser des solutions automatiques

Vous pouvez également identifier Googlebot avec l'adresse IP, en établissant une correspondance entre l'adresse IP du robot d'exploration et la liste des adresses IP des robots d'exploration et des extracteurs Google :

Pour les autres adresses IP Google à partir desquelles vous pouvez accéder à votre site (par exemple, via Apps Script), faites correspondre l'adresse IP à la liste générale des adresses IP Google. Notez que les adresses IP dans les fichiers JSON sont représentées au format CIDR.