Mardi 3 décembre 2024
Vous avez peut-être entendu dire que la recherche Google devait effectuer quelques étapes avant qu'une page Web puisse apparaître dans les résultats de recherche Google. L'une de ces étapes est appelée "exploration". L'exploration pour la recherche Google est effectuée par Googlebot (un programme exécuté sur les serveurs Google, qui récupère une URL et gère des éléments tels que les erreurs réseau, les redirections et d'autres petits problèmes qu'il peut rencontrer en parcourant le Web). Toutefois, certains points sont rarement évoqués. Chaque semaine ce mois-ci, nous allons examiner certains d'eux, car ils peuvent avoir un impact important sur l'exploration de vos sites.
Mais revenons un peu en arrière : qu'est-ce que l'exploration ?
L'exploration consiste à découvrir de nouvelles pages Web, à les revisiter lorsqu'elles ont été mises à jour et à les télécharger. En bref, Googlebot récupère une URL, envoie une requête HTTP au serveur qui l'héberge, puis traite la réponse de ce serveur, éventuellement en suivant les redirections, en gérant les erreurs et en transmettant le contenu de la page au système d'indexation de Google.
Toutefois, les pages Web modernes ne contiennent pas uniquement du code HTML. Qu'en est-il des autres ressources qui composent une page ? Comment l'exploration de ces ressources affecte-t-elle le budget d'exploration ? Ces ressources peuvent-elles être mises en cache du côté de Google ? Y a-t-il aussi une différence entre les URL qui n'ont pas encore été explorées et celles qui sont déjà indexées ? Nous allons ici répondre à ces questions et bien plus.
Googlebot et l'exploration des ressources de la page
Outre le HTML, les sites Web modernes recourent à différentes technologies, comme JavaScript et CSS, pour offrir aux utilisateurs des expériences dynamiques et des fonctionnalités utiles. Lors de l'accès à ces pages avec un navigateur, celui-ci télécharge d'abord l'URL parente qui héberge les données nécessaires pour commencer à créer la page pour l'utilisateur, c'est-à-dire le code HTML de la page. Ces données initiales peuvent contenir des références à des ressources telles que JavaScript et CSS, mais aussi des images et des vidéos que le navigateur téléchargera à nouveau pour finir par construire la page finale qui sera ensuite présentée à l'utilisateur.
Google fait exactement la même chose, mais d'une manière légèrement différente :
- Googlebot télécharge les données initiales à partir de l'URL parente, c'est-à-dire le code HTML de la page.
- Googlebot transmet les données extraites au service WRS (Web Rendering Service, service de rendu Web).
- À l'aide de Googlebot, le service WRS télécharge les ressources référencées dans les données d'origine.
- Le service WRS construit la page à l'aide de toutes les ressources téléchargées, comme le ferait le navigateur d'un utilisateur.
Par rapport à un navigateur, le temps entre chaque étape peut être beaucoup plus long en raison de contraintes de planification telles que la charge perçue du serveur hébergeant les ressources nécessaires à l'affichage d'une page. C'est là qu'intervient le budget d'exploration.
L'exploration des ressources nécessaires à l'affichage d'une page réduit le budget d'exploration du nom d'hôte qui héberge la ressource. Pour améliorer ce point, le service WRS tente de mettre en cache toutes les ressources (JavaScript et CSS) référencées dans les pages qu'il affiche. La valeur TTL du cache WRS n'est pas affectée par les instructions de mise en cache HTTP. Au lieu de cela, le service WRS conserve tous les éléments en cache pendant une durée maximale de 30 jours, ce qui permet de préserver le budget d'exploration du site pour d'autres tâches d'exploration.
Du point de vue des propriétaires de sites, gérer comment les ressources sont explorées et lesquelles le sont peut avoir une incidence sur le budget d'exploration du site. Voici donc nos recommandations :
- Utilisez le moins de ressources possible pour offrir aux utilisateurs une expérience optimale. Moins vous utilisez de ressources pour afficher une page, moins le budget d'exploration est consommé lors de l'affichage.
- Utilisez les paramètres de cache busting avec précaution: si les URL des ressources changent, Google peut être amené à les explorer à nouveau, même si leur contenu n'a pas changé. Cela va bien sûr consommer du budget d'exploration.
- Hébergez les ressources sur un nom d'hôte différent de celui du site principal (par exemple, en utilisant un CDN ou en hébergeant simplement les ressources sur un autre sous-domaine). Cela déplacera les problèmes de budget d'exploration vers l'hôte qui fournit les ressources.
Tous ces points s'appliquent également aux ressources multimédias. Si Googlebot (ou plus précisément, Googlebot-Image
et Googlebot-Video
respectivement) les récupère, il consommera le budget d'exploration du site.
Il est tentant d'ajouter robots.txt à la liste. Toutefois, du point de vue de l'affichage, interdire l'exploration des ressources entraîne généralement des problèmes. Si le service WRS ne peut pas récupérer une ressource essentielle à l'affichage, la recherche Google peut avoir du mal à extraire le contenu de la page et à permettre à celle-ci d'être classée dans les résultats de recherche.
Qu'est-ce que Googlebot explore ?
Les journaux d'accès bruts du site constituent la meilleure source pour savoir quelles ressources ont été explorées par Google. Ces journaux contiennent une entrée pour chaque URL demandée par les navigateurs et les robots d'exploration. Pour identifier les robots d'exploration de Google dans le journal d'accès, nous publions nos plage d'adresses IP dans notre documentation pour les développeurs.
La deuxième ressource la plus utile est, bien sûr, le rapport "Statistiques sur l'exploration" de la Search Console, qui répartit chaque type de ressource par robot d'exploration :

Enfin, si vous êtes vraiment intéressé par l'exploration et l'affichage, et que vous souhaitez en discuter avec d'autres personnes, la communauté Search Central est l'endroit idéal. Sachez que vous pouvez également nous retrouver sur LinkedIn.
Mises à jour
- Mise à jour du 6 décembre 2024 : Impact sur les performances de la diffusion de ressources à partir d'une autre origine.
Vous voulez en savoir plus sur l'exploration ? Découvrez l'intégralité de la série de décembre sur l'exploration :
Ajout de l'INP aux Core Web Vitals
Mercredi 10 mai 2023 Début 2020, l'équipe Chrome de Google a lancé les Core Web Vitals afin de fournir une suite de signaux de qualité pour les pages Web. Aujourd'hui, l'équipe Google Chrome a annoncé une modification à venir concernant les métriques
Le rôle de l'expérience sur la page dans la création de contenus utiles
Mercredi 19 avril 2023 Les contenus utiles offrent généralement une bonne expérience sur la page. C'est pourquoi nous avons ajouté une section sur l'expérience sur la page dans nos consignes sur la création de contenus utiles, et avons révisé notre
Chronologie de l'intégration du classement de l'expérience sur la page pour ordinateur de bureau
Jeudi 4 novembre 2021 Lors de la conférence Google I/O 2021, nous avons présenté notre projet d'intégration du classement de l'expérience sur la page pour ordinateur de bureau. Nous annonçons aujourd'hui d'autres détails, y compris la chronologie de
Plus de temps, plus d'outils et des informations supplémentaires sur la mise jour relative à l'expérience sur la page
Lundi 19 avril 2021 En novembre dernier, nous avions annoncé que la modification du classement en fonction de l'expérience sur la page dans la recherche Google interviendrait cette année. Pour aider les éditeurs et les propriétaires de site à
Délai d'intégration de l'expérience sur la page dans la recherche Google
Mardi 10 novembre 2020 En mai dernier, nous avons annoncé que les signaux d' expérience sur la page seraient inclus dans son classement dans les résultats de recherche Google. Ces signaux mesurent la manière dont les utilisateurs perçoivent leur
Évaluation de l'expérience sur la page pour améliorer le Web
Jeudi 28 mai 2020 D'après les conclusions d' études internes et d' enquêtes sectorielles, le constat est clair: les internautes privilégient les pages Web qui sont conviviales. Au cours de ces dernières années, la recherche Google a élargi la liste
Gagner en rapidité avec le nouveau rapport sur la vitesse de chargement des pages dans la Search Console
Lundi 4 novembre 2019 Depuis longtemps, la vitesse de chargement des pages est un facteur clé de l'expérience utilisateur, que nous mettons en avant et que nous encourageons vivement. Pour aider les propriétaires de sites Web à atteindre cet
Amélioration de l'expérience utilisateur avec la vitesse de Page Speed dans la recherche pour mobile
Jeudi 4 avril 2019 Pour aider les utilisateurs à trouver des réponses à leurs questions plus rapidement, nous avons inclus la vitesse de chargement des pages comme facteur de classement pour les recherches sur mobile en 2018. Depuis lors, nous avons
PageSpeed Insights fonctionne désormais avec Lighthouse
Lundi 12 novembre 2018 Chez Google, nous savons à quel point la rapidité est essentielle. C'est pourquoi nous proposons toute une variété d'outils afin de vous aider à comprendre les performances d'une page ou d'un site. Auparavant, ces outils
Utilisation de la vitesse de chargement des pages dans le classement des recherches sur mobile
Mercredi 17 janvier 2018 Les internautes veulent trouver des réponses à leurs questions aussi vite que possible: les études montrent que la vitesse de chargement d'une page est vraiment importante pour eux. Bien qu'il soit utilisé dans les