Mardi 3 décembre 2024
Vous avez peut-être entendu dire que la recherche Google devait effectuer quelques étapes avant qu'une page Web puisse apparaître dans les résultats de recherche Google. L'une de ces étapes est appelée "exploration". L'exploration pour la recherche Google est effectuée par Googlebot (un programme exécuté sur les serveurs Google, qui récupère une URL et gère des éléments tels que les erreurs réseau, les redirections et d'autres petits problèmes qu'il peut rencontrer en parcourant le Web). Toutefois, certains points sont rarement évoqués. Chaque semaine ce mois-ci, nous allons examiner certains d'eux, car ils peuvent avoir un impact important sur l'exploration de vos sites.
Mais revenons un peu en arrière : qu'est-ce que l'exploration ?
L'exploration consiste à découvrir de nouvelles pages Web, à les revisiter lorsqu'elles ont été mises à jour et à les télécharger. En bref, Googlebot récupère une URL, envoie une requête HTTP au serveur qui l'héberge, puis traite la réponse de ce serveur, éventuellement en suivant les redirections, en gérant les erreurs et en transmettant le contenu de la page au système d'indexation de Google.
Toutefois, les pages Web modernes ne contiennent pas uniquement du code HTML. Qu'en est-il des autres ressources qui composent une page ? Comment l'exploration de ces ressources affecte-t-elle le budget d'exploration ? Ces ressources peuvent-elles être mises en cache du côté de Google ? Y a-t-il aussi une différence entre les URL qui n'ont pas encore été explorées et celles qui sont déjà indexées ? Nous allons ici répondre à ces questions et bien plus.
Googlebot et l'exploration des ressources de la page
Outre le HTML, les sites Web modernes recourent à différentes technologies, comme JavaScript et CSS, pour offrir aux utilisateurs des expériences dynamiques et des fonctionnalités utiles. Lors de l'accès à ces pages avec un navigateur, celui-ci télécharge d'abord l'URL parente qui héberge les données nécessaires pour commencer à créer la page pour l'utilisateur, c'est-à-dire le code HTML de la page. Ces données initiales peuvent contenir des références à des ressources telles que JavaScript et CSS, mais aussi des images et des vidéos que le navigateur téléchargera à nouveau pour finir par construire la page finale qui sera ensuite présentée à l'utilisateur.
Google fait exactement la même chose, mais d'une manière légèrement différente :
- Googlebot télécharge les données initiales à partir de l'URL parente, c'est-à-dire le code HTML de la page.
- Googlebot transmet les données extraites au service WRS (Web Rendering Service, service de rendu Web).
- À l'aide de Googlebot, le service WRS télécharge les ressources référencées dans les données d'origine.
- Le service WRS construit la page à l'aide de toutes les ressources téléchargées, comme le ferait le navigateur d'un utilisateur.
Par rapport à un navigateur, le temps entre chaque étape peut être beaucoup plus long en raison de contraintes de planification telles que la charge perçue du serveur hébergeant les ressources nécessaires à l'affichage d'une page. C'est là qu'intervient le budget d'exploration.
L'exploration des ressources nécessaires à l'affichage d'une page réduit le budget d'exploration du nom d'hôte qui héberge la ressource. Pour améliorer ce point, le service WRS tente de mettre en cache toutes les ressources (JavaScript et CSS) référencées dans les pages qu'il affiche. La valeur TTL du cache WRS n'est pas affectée par les instructions de mise en cache HTTP. Au lieu de cela, le service WRS conserve tous les éléments en cache pendant une durée maximale de 30 jours, ce qui permet de préserver le budget d'exploration du site pour d'autres tâches d'exploration.
Du point de vue des propriétaires de sites, gérer comment les ressources sont explorées et lesquelles le sont peut avoir une incidence sur le budget d'exploration du site. Voici donc nos recommandations :
- Utilisez le moins de ressources possible pour offrir aux utilisateurs une expérience optimale. Moins vous utilisez de ressources pour afficher une page, moins le budget d'exploration est consommé lors de l'affichage.
- Utilisez les paramètres de cache busting avec précaution: si les URL des ressources changent, Google peut être amené à les explorer à nouveau, même si leur contenu n'a pas changé. Cela va bien sûr consommer du budget d'exploration.
- Hébergez les ressources sur un nom d'hôte différent de celui du site principal (par exemple, en utilisant un CDN ou en hébergeant simplement les ressources sur un autre sous-domaine). Cela déplacera les problèmes de budget d'exploration vers l'hôte qui fournit les ressources.
Tous ces points s'appliquent également aux ressources multimédias. Si Googlebot (ou plus précisément, Googlebot-Image
et Googlebot-Video
respectivement) les récupère, il consommera le budget d'exploration du site.
Il est tentant d'ajouter robots.txt à la liste. Toutefois, du point de vue de l'affichage, interdire l'exploration des ressources entraîne généralement des problèmes. Si le service WRS ne peut pas récupérer une ressource essentielle à l'affichage, la recherche Google peut avoir du mal à extraire le contenu de la page et à permettre à celle-ci d'être classée dans les résultats de recherche.
Qu'est-ce que Googlebot explore ?
Les journaux d'accès bruts du site constituent la meilleure source pour savoir quelles ressources ont été explorées par Google. Ces journaux contiennent une entrée pour chaque URL demandée par les navigateurs et les robots d'exploration. Pour identifier les robots d'exploration de Google dans le journal d'accès, nous publions nos plage d'adresses IP dans notre documentation pour les développeurs.
La deuxième ressource la plus utile est, bien sûr, le rapport "Statistiques sur l'exploration" de la Search Console, qui répartit chaque type de ressource par robot d'exploration :

Enfin, si vous êtes vraiment intéressé par l'exploration et l'affichage, et que vous souhaitez en discuter avec d'autres personnes, la communauté Search Central est l'endroit idéal. Sachez que vous pouvez également nous retrouver sur LinkedIn.
Mises à jour
- Mise à jour du 6 décembre 2024 : Impact sur les performances de la diffusion de ressources à partir d'une autre origine.
Vous voulez en savoir plus sur l'exploration ? Découvrez l'intégralité de la série de décembre sur l'exploration :
Cherry Prommawin
Analyste de l'équipe Google Search Quality Lisez les posts de Cherry Prommawin sur le blog Google Search Central. LinkedIn
Daniel Waisberg
Expert de la recherche Google Daniel est Search Expert de la recherche Google, qui fait partie de l'équipe Search Relations. Son travail est divisé entre la formation de la communauté Search et le travail avec l'équipe d'ingénieurs de la
Gary Illyes
Analyste dans l'équipe Recherche Google Gary Illyes est analyste dans l'équipe Recherche Google. Il s'attache à publier des informations sur les systèmes de la recherche Google pour aider les éditeurs à créer des sites Web qui fonctionnent tant pour
John Mueller
Expert de la recherche Google John Mueller coordonne les actions de l'équipe Google Search Relations. Avec son équipe, il met en relation les acteurs internes de l'ingénierie de la recherche chez Google avec les personnes qui créent et optimisent des
Lizzi Sassman
Rédactrice technique, équipe Google Search Lisez les posts de Lizzi Sassman sur le blog Google Search Central. LinkedIn | Twitter | Mastodon
Martin Splitt
Spécialiste Googlebot au sein de l'équipe Google Search Relations Lisez les posts de Martin Splitt sur le blog Google Search Central. Site Web | LinkedIn | Twitter | GitHub | Mastodon