Décembre : méthodes et raisons de l'exploration par Googlebot

Mardi 3 décembre 2024

Vous avez peut-être entendu dire que la recherche Google devait effectuer quelques étapes avant qu'une page Web puisse apparaître dans les résultats de recherche Google. L'une de ces étapes est appelée "exploration". L'exploration pour la recherche Google est effectuée par Googlebot (un programme exécuté sur les serveurs Google, qui récupère une URL et gère des éléments tels que les erreurs réseau, les redirections et d'autres petits problèmes qu'il peut rencontrer en parcourant le Web). Toutefois, certains points sont rarement évoqués. Chaque semaine ce mois-ci, nous allons examiner certains d'eux, car ils peuvent avoir un impact important sur l'exploration de vos sites.

Mais revenons un peu en arrière : qu'est-ce que l'exploration ?

L'exploration consiste à découvrir de nouvelles pages Web, à les revisiter lorsqu'elles ont été mises à jour et à les télécharger. En bref, Googlebot récupère une URL, envoie une requête HTTP au serveur qui l'héberge, puis traite la réponse de ce serveur, éventuellement en suivant les redirections, en gérant les erreurs et en transmettant le contenu de la page au système d'indexation de Google.

Toutefois, les pages Web modernes ne contiennent pas uniquement du code HTML. Qu'en est-il des autres ressources qui composent une page ? Comment l'exploration de ces ressources affecte-t-elle le budget d'exploration ? Ces ressources peuvent-elles être mises en cache du côté de Google ? Y a-t-il aussi une différence entre les URL qui n'ont pas encore été explorées et celles qui sont déjà indexées ? Nous allons ici répondre à ces questions et bien plus.

Googlebot et l'exploration des ressources de la page

Outre le HTML, les sites Web modernes recourent à différentes technologies, comme JavaScript et CSS, pour offrir aux utilisateurs des expériences dynamiques et des fonctionnalités utiles. Lors de l'accès à ces pages avec un navigateur, celui-ci télécharge d'abord l'URL parente qui héberge les données nécessaires pour commencer à créer la page pour l'utilisateur, c'est-à-dire le code HTML de la page. Ces données initiales peuvent contenir des références à des ressources telles que JavaScript et CSS, mais aussi des images et des vidéos que le navigateur téléchargera à nouveau pour finir par construire la page finale qui sera ensuite présentée à l'utilisateur.

Google fait exactement la même chose, mais d'une manière légèrement différente :

Googlebot télécharge les données initiales à partir de l'URL parente, c'est-à-dire le code HTML de la page.
Googlebot transmet les données extraites au service WRS (Web Rendering Service, service de rendu Web).
À l'aide de Googlebot, le service WRS télécharge les ressources référencées dans les données d'origine.
Le service WRS construit la page à l'aide de toutes les ressources téléchargées, comme le ferait le navigateur d'un utilisateur.

Par rapport à un navigateur, le temps entre chaque étape peut être beaucoup plus long en raison de contraintes de planification telles que la charge perçue du serveur hébergeant les ressources nécessaires à l'affichage d'une page. C'est là qu'intervient le budget d'exploration.

L'exploration des ressources nécessaires à l'affichage d'une page réduit le budget d'exploration du nom d'hôte qui héberge la ressource. Pour améliorer ce point, le service WRS tente de mettre en cache toutes les ressources (JavaScript et CSS) référencées dans les pages qu'il affiche. La valeur TTL du cache WRS n'est pas affectée par les instructions de mise en cache HTTP. Au lieu de cela, le service WRS conserve tous les éléments en cache pendant une durée maximale de 30 jours, ce qui permet de préserver le budget d'exploration du site pour d'autres tâches d'exploration.

Du point de vue des propriétaires de sites, gérer comment les ressources sont explorées et lesquelles le sont peut avoir une incidence sur le budget d'exploration du site. Voici donc nos recommandations :

Utilisez le moins de ressources possible pour offrir aux utilisateurs une expérience optimale. Moins vous utilisez de ressources pour afficher une page, moins le budget d'exploration est consommé lors de l'affichage.
Utilisez les paramètres de cache busting avec précaution: si les URL des ressources changent, Google peut être amené à les explorer à nouveau, même si leur contenu n'a pas changé. Cela va bien sûr consommer du budget d'exploration.
Hébergez les ressources sur un nom d'hôte différent de celui du site principal (par exemple, en utilisant un CDN ou en hébergeant simplement les ressources sur un autre sous-domaine). Cela déplacera les problèmes de budget d'exploration vers l'hôte qui fournit les ressources.
Mise à jour du 6 décembre 2024:cela peut entraîner une baisse des performances de la page en raison des frais généraux liés à la connexion à un autre nom d'hôte. Nous déconseillons donc cette stratégie pour les ressources critiques (telles que JavaScript ou CSS) nécessaires à l'affichage d'une page. Toutefois, pour les ressources non critiques plus volumineuses, telles que les vidéos ou les téléchargements, cette approche peut être envisagée.

Tous ces points s'appliquent également aux ressources multimédias. Si Googlebot (ou plus précisément, Googlebot-Image et Googlebot-Video respectivement) les récupère, il consommera le budget d'exploration du site.

Il est tentant d'ajouter robots.txt à la liste. Toutefois, du point de vue de l'affichage, interdire l'exploration des ressources entraîne généralement des problèmes. Si le service WRS ne peut pas récupérer une ressource essentielle à l'affichage, la recherche Google peut avoir du mal à extraire le contenu de la page et à permettre à celle-ci d'être classée dans les résultats de recherche.

Qu'est-ce que Googlebot explore ?

Les journaux d'accès bruts du site constituent la meilleure source pour savoir quelles ressources ont été explorées par Google. Ces journaux contiennent une entrée pour chaque URL demandée par les navigateurs et les robots d'exploration. Pour identifier les robots d'exploration de Google dans le journal d'accès, nous publions nos plage d'adresses IP dans notre documentation pour les développeurs.

La deuxième ressource la plus utile est, bien sûr, le rapport "Statistiques sur l'exploration" de la Search Console, qui répartit chaque type de ressource par robot d'exploration :

Rapport "Statistiques sur l'exploration" dans la Search Console affichant les différents types de ressources explorées par Googlebot

Enfin, si vous êtes vraiment intéressé par l'exploration et l'affichage, et que vous souhaitez en discuter avec d'autres personnes, la communauté Search Central est l'endroit idéal. Sachez que vous pouvez également nous retrouver sur LinkedIn.

Publié par Martin Splitt et Gary Illyes

Mises à jour

Mise à jour du 6 décembre 2024 : Impact sur les performances de la diffusion de ressources à partir d'une autre origine.