Présentation des robots d'exploration et des extracteurs Google (user-agents)

Google utilise des robots d'exploration et des extracteurs pour effectuer des actions sur ses produits soit automatiquement, soit à la demande de l'utilisateur. Le terme générique "robot d'exploration", ou plus simplement "robot", désigne tout programme qui permet de découvrir et d'analyser automatiquement des sites Web en suivant des liens d'une page Web à une autre. Les extracteurs agissent comme un programme tel que wget, qui effectue généralement une seule requête au nom d'un utilisateur. Les clients de Google appartiennent à trois catégories :

Robots d'exploration communs Les robots d'exploration communs utilisés pour les produits Google (comme Googlebot). Ils respectent toujours les règles du fichier robots.txt pour les explorations automatiques.
Robots d'exploration spéciaux Les robots d'exploration spéciaux sont semblables aux robots d'exploration communs, mais sont utilisés par des produits spécifiques dont le processus d'exploration fait l'objet d'un accord entre le site exploré et le produit Google. Par exemple, AdsBot ignore le user-agent robots.txt global (*) avec l'autorisation de l'éditeur de l'annonce.
Extracteurs déclenchés par l'utilisateur Les extracteurs déclenchés par l'utilisateur font partie des outils et des fonctions produit dans lesquels l'utilisateur final déclenche une extraction. Par exemple, Google Site Verifier agit à la demande d'un utilisateur.

Propriétés techniques des robots d'exploration et des extracteurs Google

Les robots d'exploration et les extracteurs Google sont conçus pour être exécutés simultanément sur des milliers de machines afin d'améliorer les performances et de s'adapter à la croissance du Web. Pour optimiser l'utilisation de la bande passante, ces clients sont répartis dans de nombreux centres de données à travers le monde. Ils se trouvent donc à proximité des sites auxquels ils peuvent accéder. Par conséquent, vos journaux peuvent indiquer des visites provenant de plusieurs adresses IP. Google effectue principalement des sorties à partir d'adresses IP aux États-Unis. Si Google détecte qu'un site bloque les requêtes provenant des États-Unis, il est susceptible de tenter d'explorer les URL à partir d'adresses IP situées dans d'autres pays.

Les robots d'exploration et les extracteurs Google utilisent HTTP/1.1 et, si le site est compatible, HTTP/2. L'exploration via HTTP/2 peut permettre d'économiser des ressources de calcul (par exemple, le processeur et la mémoire RAM) pour votre site et Googlebot. Toutefois, cela ne présente pas d'avantage particulier pour le site (par exemple, pas d'amélioration du classement dans la recherche Google). Pour désactiver l'exploration via HTTP/2, demandez au serveur qui héberge votre site de répondre avec un code d'état HTTP 421 lorsque Google tente d'explorer votre site via HTTP/2. En cas d'échec, vous pouvez envoyer un message à l'équipe chargée de l'exploration (notez toutefois que cette solution est temporaire).

Les robots d'exploration et les extracteurs Google sont compatibles avec les encodages de contenu (compressions) suivants : gzip, deflate et Brotli (br). Les encodages de contenu pris en charge par chaque user-agent Google sont annoncés dans l'en-tête Accept-Encoding de chaque requête qu'ils envoient. Exemple : Accept-Encoding: gzip, deflate, br.

Notre objectif est d'explorer autant de pages de votre site que possible à chaque visite, sans surcharger votre serveur. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez réduire la vitesse d'exploration. Notez que l'envoi d'un code de réponse HTTP inapproprié aux robots d'exploration Google peut avoir une incidence sur la façon dont votre site apparaît dans les produits Google.

Valider les robots d'exploration et les extracteurs Google

Les robots d'exploration Google s'identifient de trois manières :

  1. En-tête de requête HTTP user-agent
  2. Adresse IP source de la requête
  3. Nom d'hôte DNS inversé de l'adresse IP source

Découvrez comment utiliser ces informations pour valider les robots d'exploration et les extracteurs Google.