Googlebot

Googlebot est le nom générique de deux types de robots d'exploration utilisés par la recherche Google :

Googlebot Smartphone : un robot d'exploration pour mobile qui simule un utilisateur sur un appareil mobile.
Googlebot Desktop : un robot d'exploration pour ordinateur qui simule un utilisateur sur ordinateur.

Pour identifier le sous-type Googlebot, consultez l'en-tête de requête HTTP user-agent dans la requête. Toutefois, les deux types de robots reposent sur le même jeton de produit (jeton user-agent) dans le fichier robots.txt. Par conséquent, ce fichier ne vous permet pas de déterminer le type de robot d'exploration utilisé (Googlebot Smartphone ou Googlebot Desktop).

Pour la plupart des sites, la recherche Google indexe principalement la version mobile du contenu. Par conséquent, la plupart des demandes d'exploration Googlebot est traitée à l'aide du robot pour mobile, tandis qu'une minorité est traitée par le robot pour ordinateur.

Comment Googlebot accède-t-il à votre site ?

Dans la plupart des cas, les accès de Googlebot à votre site devraient être espacés de plusieurs secondes en moyenne. Cependant, des retards peuvent accroître légèrement cette fréquence sur de courtes périodes. Si votre site rencontre des difficultés pour répondre aux demandes d'exploration de Google, vous pouvez réduire la vitesse d'exploration.

Lors de l'exploration pour la recherche Google, Googlebot explore les 2 premiers Mo d'un type de fichier compatible et les 64 premiers Mo d'un fichier PDF. Du point de vue du rendu, chaque ressource référencée dans le code HTML (CSS ou JavaScript, par exemple) est récupérée séparément, et chaque récupération de ressource est soumise à la même limite de taille de fichier que celle qui s'applique aux autres fichiers (à l'exception des fichiers PDF).
Une fois la limite atteinte, Googlebot interrompt la récupération et n'envoie que la partie déjà téléchargée du fichier pour l'indexation. La taille maximale de fichier est appliquée aux données non compressées. D'autres robots d'exploration Google, par exemple Googlebot Video et Googlebot Image, peuvent être soumis à des limites différentes.

Lorsque Googlebot explore à partir d'adresses IP aux États-Unis, son fuseau horaire est l'heure du Pacifique.

D'autres propriétés techniques de Googlebot sont décrites dans la présentation des robots d'exploration Google.

Empêcher Googlebot d'accéder à votre site

Googlebot découvre les nouvelles URL à explorer principalement à partir des liens intégrés aux pages explorées précédemment. Il est quasiment impossible de garder un site secret en évitant de publier des liens qui pointent vers celui-ci. Par exemple, dès qu'un internaute clique sur un lien de votre site "secret" vers un autre site, l'URL de votre site "secret" peut apparaître dans la balise de provenance, puis être stockée et publiée par l'autre site dans un fichier journal.

Si vous souhaitez empêcher Googlebot d'explorer le contenu de votre site, plusieurs possibilités s'offrent à vous. N'oubliez pas qu'il existe une différence entre l'exploration et l'indexation. Empêcher Googlebot d'explorer une page n'empêche pas l'affichage de l'URL de cette page dans les résultats de recherche :

Vous voulez empêcher Googlebot d'explorer une page ? Utilisez un fichier robots.txt.
Vous ne voulez pas que Google indexe une page ? Utilisez noindex.
Vous voulez empêcher les robots d'exploration et les utilisateurs d'accéder à une page ? Utilisez une autre méthode telle que la protection par mot de passe.

Le blocage de Googlebot affecte la recherche Google (y compris Discover et toutes les fonctionnalités de la recherche Google), ainsi que d'autres produits tels que Google Images, Google Vidéo et Google Actualités.

Validation de Googlebot

Avant de bloquer Googlebot, sachez que l'en-tête de requête HTTP user-agent utilisé par Googlebot est souvent falsifié (spoofing) par d'autres robots d'exploration. Il est important de vérifier que la demande posant problème provient bien de Google. Le meilleur moyen de vérifier qu'une requête provient bien de Googlebot est d'utiliser une résolution DNS inverse au niveau de l'adresse IP source de la requête ou de vérifier que l'adresse IP source fait partie des plages d'adresses IP de Googlebot.