Guide sur la gestion du budget d'exploration pour les propriétaires de sites volumineux

Ce guide explique comment optimiser l'exploration par Google des sites très volumineux et fréquemment mis à jour.

Si votre site ne comporte pas un grand nombre de pages qui changent rapidement ou si vos pages semblent être explorées le jour de leur publication, la lecture de ce guide n'est pas nécessaire. Il vous suffit de maintenir votre sitemap à jour et de vérifier régulièrement la couverture de votre index.

Si votre contenu est disponible depuis un certain temps, mais qu'il n'a jamais été indexé, il est important d'agir. Commencez par utiliser l'outil d'inspection d'URL pour déterminer la raison pour laquelle votre page n'est pas indexée.

À qui s'adresse ce guide ?

Ce guide avancé cible les sites suivants :

  • Sites très volumineux (plus d'un million de pages uniques) dont le contenu change assez souvent (une fois par semaine)
  • Sites de taille moyenne ou grande (plus de 10 000 pages uniques) dont le contenu change très rapidement (quotidiennement)
  • Sites dont une proportion importante d'URL est classifiée comme Détectée, actuellement non indexée par la Search Console

Théorie générale de l'exploration

Le Web est tellement vaste qu'il ne permet pas à Google d'explorer ni d'indexer toutes les URL disponibles. C'est pourquoi Googlebot ne peut pas explorer indéfiniment un site. Le temps et les ressources que Google consacre à l'exploration d'un site sont généralement régis par le budget d'exploration de ce site. Notez que tous les éléments explorés sur votre site ne sont pas nécessairement indexés. Chaque page doit être évaluée, consolidée et examinée afin de déterminer si elle sera indexée après son exploration.

Le budget d'exploration est déterminé par deux éléments clés : la limite de la capacité d'exploration et le besoin d'exploration.

Limite de la capacité d'exploration

L'objectif de Googlebot est d'explorer votre site sans surcharger vos serveurs. Pour ce faire, Googlebot calcule une limite de la capacité d'exploration. Celle-ci correspond au nombre maximal de connexions simultanées parallèles que Googlebot peut utiliser pour explorer un site, ainsi qu'au temps qu'il doit attendre entre deux explorations. Cette valeur est calculée dans le but de couvrir l'ensemble de votre contenu principal sans surcharger vos serveurs.

La limite de la capacité d'exploration peut augmenter ou diminuer en fonction de différents facteurs :

  • État de l'exploration : si le site répond rapidement pendant un certain temps, la limite augmente, ce qui signifie que davantage de connexions peuvent être utilisées pour l'exploration. Si le site ralentit ou répond par des erreurs de serveur, la limite diminue, et Googlebot réduit son exploration.
  • Limites d'exploration de Google : bien que notre infrastructure soit très vaste, elle n'est pas infinie. C'est pourquoi nous devons faire des choix par rapport aux ressources dont nous disposons.

Besoin d'exploration

En règle générale, Google consacre autant de temps que nécessaire à l'exploration d'un site, en fonction de sa taille, de la fréquence d'actualisation, de la qualité de ses pages et de sa pertinence par rapport aux autres sites.

Les facteurs qui jouent un rôle majeur dans la détermination du besoin d'exploration sont les suivants :

  • Inventaire perçu : sans consigne de votre part, Googlebot tente d'explorer la totalité ou la plupart des URL de votre site dont il a connaissance. Si un grand nombre d'entre elles constituent des doublons ou si leur exploration n'est pas indispensable pour une autre raison (page supprimée, contenu sans importance, etc.), une grande partie du temps passé par Google sur votre site est gaspillé. Ce facteur fait partie de ceux que vous pouvez contrôler le plus facilement.
  • Popularité : les URL les plus populaires sur Internet ont tendance à être explorées plus souvent pour être le plus à jour possible dans notre index.
  • Obsolescence : l'objectif de nos systèmes est d'explorer fréquemment les documents afin d'identifier toute modification.

En outre, les événements sur l'ensemble du site comme les déplacements peuvent déclencher une augmentation du besoin d'exploration afin de réindexer le contenu sur les nouvelles URL.

Récapitulatif

En associant la capacité d'exploration au besoin d'exploration, Google définit le budget d'exploration d'un site comme l'ensemble des URL que Googlebot peut et veut explorer. Même si la limite de la capacité d'exploration n'est pas atteinte, si le besoin d'exploration est faible, Googlebot explore moins votre site.

Bonnes pratiques

Pour optimiser l'efficacité de l'exploration, suivez ces bonnes pratiques :

  • Gérer votre inventaire d'URL : utilisez les outils appropriés pour indiquer à Google les pages à explorer ou à ne pas explorer. Si Google passe trop de temps à explorer des URL qui ne sont pas adaptées à l'index, Googlebot peut décider de cesser de consulter le reste de votre site (ou d'augmenter son budget d'exploration pour le couvrir entièrement).
    • Consolidez le contenu en double. Éliminez le contenu en double afin de concentrer l'exploration sur le contenu qui est unique plutôt que sur les URL uniques.
    • Bloquez l'exploration des URL à l'aide du fichier robots.txt. Il est possible que certaines pages soient importantes pour les utilisateurs, mais que vous ne souhaitiez pas forcément qu'elles apparaissent dans les résultats de recherche (pages à défilement infini qui dupliquent des informations sur des pages liées ou versions triées différemment de la même page, par exemple). Si vous ne pouvez pas les consolider comme décrit dans le premier point, bloquez ces pages sans importance (dans la recherche Google) à l'aide du fichier robots.txt. En bloquant les URL avec le fichier robots.txt, vous réduisez considérablement le risque qu'elles soient indexées.
    • Renvoyez un code d'état 404 ou 410 pour les pages supprimées définitivement. Google n'oublie pas les URL dont il a connaissance, mais un code d'état 404 lui permet de comprendre qu'il n'est plus utile d'explorer à nouveau l'URL correspondante. En revanche, les URL bloquées restent dans la file d'attente d'exploration beaucoup plus longtemps et sont réexplorées une fois que le blocage est supprimé.
    • Éliminez les erreurs soft 404. Les pages soft 404 continuent à être explorées et consomment donc inutilement une partie de votre budget. Recherchez des erreurs soft 404 dans le rapport Couverture de l'index.
    • Mettez régulièrement à jour vos sitemaps. Google consulte régulièrement votre sitemap. Veillez donc à y inclure tout le contenu à explorer. Si votre site comprend du contenu mis à jour, nous vous recommandons d'inclure la balise <lastmod>.
    • Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
  • Optimisez le chargement de vos pages. Si nous sommes en mesure de charger et d'afficher vos pages rapidement, il est probable que nous parviendrons à lire davantage de contenu sur votre site.
  • Suivez l'exploration de votre site. Vérifiez si votre site a rencontré des problèmes de disponibilité lors de l'exploration et cherchez des moyens d'améliorer l'efficacité de l'exploration.

Suivre l'exploration et l'indexation de votre site

Voici les principales étapes à suivre pour suivre le profil d'exploration de votre site :

  1. Vérifiez si Googlebot rencontre des problèmes de disponibilité sur votre site.
  2. Déterminez si certaines de vos pages ne sont pas explorées alors qu'elles devraient l'être.
  3. Vérifiez si certaines parties de votre site doivent être explorées plus rapidement qu'elles ne le sont déjà.
  4. Optimisez l'exploration de votre site.
  5. Corrigez toute exploration excessive de votre site.

Vérifier si Googlebot rencontre des problèmes de disponibilité sur votre site

L'amélioration de la disponibilité de votre site n'entraîne pas nécessairement une augmentation de votre budget d'exploration. Google détermine la vitesse d'exploration la plus appropriée en fonction du besoin d'exploration, comme décrit précédemment. Cependant, les problèmes de disponibilité empêchent Google d'explorer votre site autant qu'il le souhaiterait.

Diagnostic :

Consultez le rapport de statistiques sur l'exploration pour afficher l'historique d'exploration de Googlebot pour votre site. Celui-ci indique à quel moment Google a rencontré des problèmes de disponibilité sur votre site. Si des erreurs ou des avertissements de disponibilité sont signalés, examinez les graphiques Disponibilité de l'hôte et recherchez les instances où les demandes Googlebot ont dépassé la limite rouge. Cliquez ensuite sur le graphique pour voir quelles URL ont échoué et essayez de déterminer si elles correspondent à celles ayant rencontré des problèmes sur votre site.

Vous pouvez également utiliser l'outil d'inspection d'URL pour tester quelques URL de votre site. Si l'outil renvoie des avertissements Charge de l'hôte dépassée, cela signifie que Googlebot ne peut pas explorer autant d'URL de votre site que nécessaire.

Traitement :

  • Lisez la documentation du rapport "Statistiques sur l'exploration" pour déterminer comment détecter et gérer certains problèmes de disponibilité.
  • Bloquez l'exploration des pages requises (voir la section Gérer votre inventaire).
  • Accélérez le chargement et l'affichage des pages (voir la section Optimiser l'exploration de votre site).
  • Augmentez la capacité de votre serveur. Si Google semble atteindre constamment la limite de diffusion de votre site lors de son exploration, mais que certaines de vos URL importantes ne sont pas explorées ou mises à jour autant de fois que nécessaire, l'augmentation de la capacité de votre serveur peut aider Google à explorer davantage de pages sur votre site. Consultez l'historique de disponibilité de votre hôte dans le rapport "Statistiques sur l'exploration" pour déterminer si la vitesse d'exploration de Google semble fréquemment dépasser la limite. Si tel est le cas, augmentez vos ressources de diffusion pendant un mois, puis vérifiez si les demandes d'exploration ont augmenté pendant cette période.

Vérifier si certaines parties de votre site ne sont pas explorées alors qu'elles devraient l'être

Google consacre autant de temps que nécessaire à votre site afin d'indexer tout le contenu pertinent et de haute qualité qu'il y trouve. Si vous estimez que Googlebot est passé à côté d'un contenu important, plusieurs raisons sont possibles : soit Googlebot ne sait pas que ce contenu existe ou n'y a pas accès, soit la disponibilité de votre site restreint l'accès de Google (ou Google tente de ne pas surcharger votre site).

Diagnostic :

La Search Console ne permet pas de filtrer l'historique d'exploration par URL ou par chemin. Toutefois, vous pouvez inspecter les journaux de votre site pour savoir si des URL spécifiques ont été explorées par Googlebot. Rappelez-vous que les URL explorées ne sont pas forcément indexées.

L'identification et l'exploration des nouvelles pages requièrent plusieurs jours pour la plupart des sites, sauf pour ceux où l'exploration du contenu doit avoir lieu le jour de la publication, tels que les sites d'actualités.

Traitement :

Si vous ajoutez des pages à votre site et qu'elles ne sont pas explorées dans un délai raisonnable, soit Google n'a pas connaissance de leur existence ou n'y a pas accès, soit votre site a atteint sa capacité de diffusion maximale ou vous avez épuisé votre budget d'exploration.

  1. Notifiez Google en cas d'ajout de pages : mettez à jour vos sitemaps afin qu'ils reflètent les nouvelles URL.
  2. Examinez les règles du fichier robots.txt afin de vérifier que vous ne bloquez pas des pages par erreur.
  3. Vérifiez vos priorités d'exploration (ou utilisez votre budget d'exploration avec discernement). Gérez votre inventaire et optimisez l'exploration de votre site.
  4. Vérifiez que vous n'avez pas atteint la capacité de diffusion. Googlebot réduit l'exploration s'il détecte que vos serveurs rencontrent des difficultés pour répondre aux demandes d'exploration.

Notez que les pages explorées ne s'affichent pas forcément dans les résultats de recherche, notamment si leur contenu ne présente pas d'intérêt particulier pour les internautes ou si la demande des utilisateurs est insuffisante.

Vérifier si les mises à jour sont explorées suffisamment rapidement

Si nous n'explorons pas les pages que vous venez de créer ou de modifier, il est possible que ces créations ou modifications aient échappé à nos systèmes de détection. Voici comment nous informer des modifications apportées à vos pages.

Notez que Google s'efforce de vérifier et d'indexer les pages dans les meilleurs délais. Pour la plupart des sites, ce délai est d'au moins trois jours. Ne vous attendez pas à ce que Google indexe les pages le jour où vous les publiez, sauf s'il s'agit d'un site d'actualités ou si votre site fait partie des sites reconnus pour lesquels le facteur temps est déterminant.

Diagnostic :

Examinez les journaux de votre site pour déterminer quand des URL spécifiques ont été explorées par Googlebot.

Pour connaître la date d'indexation, utilisez l'outil d'inspection d'URL ou effectuez une recherche Google portant sur les URL que vous avez actualisées.

Traitement :

Conseillé :

  • Utilisez un sitemap Google Actualités si votre site propose des articles d'actualité.
  • Utilisez la balise <lastmod> dans les sitemaps pour indiquer qu'une URL indexée a été actualisée.
  • Utilisez une structure d'URL simple pour aider Google à identifier vos pages.
  • Fournissez des liens <a> explorables standards pour aider Google à détecter vos pages.

À éviter :

  • Envoyez le même sitemap, sans aucune modification, plusieurs fois par jour.
  • Comptez à ce que Googlebot explore tous les éléments de votre sitemap ou à ce qu'il les explore immédiatement. Les sitemaps sont des suggestions utiles pour Googlebot, et non des exigences absolues.
  • Ajoutez dans vos sitemaps les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche. Ces pages contribuent à épuiser votre budget d'exploration.

Optimiser l'exploration de votre site

Accélérer le chargement des pages

L'exploration Google est limitée par la bande passante, le temps et la disponibilité des instances Googlebot. Si votre serveur répond rapidement aux demandes, il se peut que nous puissions explorer plus de pages de votre site que prévu. Ceci dit, l'objectif principal de Google est d'explorer le contenu de haute qualité. Par conséquent, si vous vous contentez de lui proposer des pages de faible qualité, cela n'incitera pas Googlebot à explorer une plus grande partie de votre site même si elles sont plus rapides. Par contre, si nous estimons que nous sommes passés à côté de contenu de qualité sur votre site, nous augmenterons votre budget afin de pouvoir l'explorer.

Voici comment optimiser l'exploration de vos pages et de vos ressources :

  • Empêchez Googlebot de charger les ressources volumineuses, mais sans importance, à l'aide d'un fichier robots.txt. Assurez-vous de ne bloquer que les ressources non critiques, à savoir celles qui n'affectent pas la signification de la page (comme les images décoratives).
  • Vérifiez que vos pages se chargent rapidement.
  • Évitez les longues chaînes de redirection, qui ont un effet négatif sur l'exploration.
  • Le temps de réponse aux demandes du serveur, ainsi que le temps nécessaire pour afficher les pages, jouent un rôle majeur, y compris la durée de chargement et d'exécution des ressources intégrées telles que les images et les scripts. Tenez compte des ressources volumineuses ou lentes requises pour l'indexation.

Spécifier les modifications de contenu à l'aide de codes d'état HTTP

Google accepte généralement les en-têtes de requêtes HTTP If-Modified-Since et If-None-Match pour l'exploration. Les robots d'exploration Google n'envoient pas les en-têtes à chaque tentative d'exploration. Cela dépend du cas d'utilisation de la requête (par exemple, AdsBot est plus susceptible de définir les en-têtes des requêtes HTTP If-Modified-Since et If-None-Match). Si nos robots d'exploration envoient l'en-tête If-Modified-Since, la valeur de l'en-tête correspond à la date et à l'heure de la dernière exploration du contenu. Sur la base de cette valeur, le serveur peut choisir de renvoyer un code d'état HTTP 304 (Not Modified) sans corps de réponse, auquel cas Google réutilisera la dernière version du contenu explorée. Si le contenu est plus récent que la date spécifiée par le robot d'exploration dans l'en-tête If-Modified-Since, le serveur peut renvoyer un code d'état HTTP 200 (OK) avec le corps de la réponse.

Indépendamment des en-têtes de requête, vous pouvez envoyer un code d'état HTTP 304 (Not Modified) sans aucun corps de réponse à toute requête Googlebot si le contenu n'a pas changé depuis la dernière visite de Googlebot par l'URL. Vous économiserez ainsi du temps et des ressources à votre serveur, ce qui peut améliorer indirectement l'efficacité de l'exploration.

Masquer les URL que vous ne souhaitez pas voir apparaître dans les résultats de recherche

Le fait de mobiliser les ressources du serveur pour des pages secondaires peut réduire l'activité d'exploration pour les pages que vous considérez comme essentielles. Résultat : la détection du contenu nouveau ou mis à jour sur un site peut être retardée de manière significative.

L'exposition de nombreuses URL qui ne devraient pas être explorées par un moteur de recherche peut avoir un impact négatif sur l'exploration et l'indexation de votre site. Ces URL appartiennent généralement aux catégories suivantes :

  • Navigation à facettes et identifiants de session : la navigation à facettes correspond généralement à du contenu en double sur le site. Les identifiants de session et autres paramètres d'URL qui permettent simplement de trier ou de filtrer la page n'ajoutent rien au contenu existant. Utilisez un fichier robots.txt pour bloquer les pages de navigation à facettes.
  • Contenu en double : aidez Google à identifier le contenu en double afin d'éviter toute exploration inutile.
  • Pages soft 404 : affichez un code 404 lorsqu'une page n'existe plus.
  • Pages piratées : consultez le rapport sur les problèmes de sécurité, puis corrigez ou supprimez les pages piratées que vous y trouvez.
  • Espaces infinis et proxys : empêchez l'exploration de ces entités à l'aide d'un fichier robots.txt.
  • Contenu de mauvaise qualité et spam : il va de soi qu'il est préférable d'éviter ce genre de situation.
  • Pages de commande, pages à défilement infini ou pages d'action (pages d'inscription ou d'achat immédiat, par exemple).

Conseillé :

  • Utilisez le fichier robots.txt si vous ne souhaitez pas que Google explore une ressource ou une page.
  • Si une ressource commune est réutilisée sur plusieurs pages (telle qu'une image partagée ou un fichier JavaScript), référencez cette ressource avec la même URL sur chaque page. De cette manière, Google mettra en cache et réutilisera la même ressource sans avoir à la demander plusieurs fois.

À éviter :

  • Évitez d'ajouter ou de supprimer régulièrement des pages ou des répertoires dans le fichier robots.txt dans le but de redistribuer une partie du budget d'exploration de votre site. N'utilisez le fichier robots.txt que pour les pages ou les ressources qui ne devraient pas figurer sur Google à long terme.
  • Évitez d'effectuer une rotation des sitemaps ou d'utiliser d'autres mécanismes de masquage temporaire pour redistribuer le budget.

Gérer la surexploration de votre site (urgence)

Googlebot exploite des algorithmes qui l'empêchent de surcharger votre site de demandes d'exploration. Toutefois, si vous estimez que cela n'est pas suffisant, plusieurs options s'offrent à vous.

Diagnostic :

Surveillez votre serveur pour déterminer si le nombre de requêtes Googlebot envoyées à votre site est excessif.

Traitement :

En cas d'urgence, nous vous recommandons de suivre les étapes ci-dessous pour ralentir la fréquence d'exploration de Googlebot :

  1. Renvoyez des codes d'état de réponse HTTP 503 ou 429 temporairement pour les requêtes Googlebot lorsque votre serveur est surchargé. Googlebot tentera de réexplorer ces URL pendant environ deux jours. Sachez que si vous renvoyez des codes de non-disponibilité pendant une durée prolongée, Google ralentira définitivement ou cessera d'explorer les URL de votre site. Veillez donc à prendre les mesures supplémentaires suivantes.
  2. Lorsque la vitesse d'exploration diminue, cessez de renvoyer des codes d'état de réponse HTTP 503 ou 429 pour les requêtes d'exploration. Si vous renvoyez 503 ou 429 pendant plus de deux jours, Google supprimera ces URL de l'index.
  3. Surveillez la capacité de l'exploration et de l'hôte au fil du temps.
  4. Si le robot problématique fait partie des robots d'exploration AdsBot, cela signifie probablement que vous avez créé des cibles d'annonces dynamiques du Réseau de Recherche pour votre site que Google tente d'explorer. Cette exploration se répète toutes les trois semaines. Si votre serveur n'est pas assez puissant pour gérer ces explorations, pensez à limiter vos cibles d'annonces ou à augmenter la capacité de diffusion.

Idées reçues et faits avérés concernant l'exploration

Testez vos connaissances sur la façon dont Google explore et indexe les sites Web.

La compression de mes sitemaps contribue à augmenter le budget d'exploration.
Vrai
Faux
C'est une idée reçue. Le fait de compresser un sitemap n'empêche pas qu'il doit être récupéré sur le serveur. Dès lors, l'envoi de sitemaps compressés ne fait pas réellement gagner de temps à Google pour l'exploration.
Google privilégie les contenus les plus récents. Je préfère donc continuer à peaufiner ma page.
Vrai
Faux
Le contenu est évalué en fonction de la qualité, quelle que soit son ancienneté. Créez et mettez à jour votre contenu autant que nécessaire, mais il n'est pas utile d'y apporter constamment des modifications mineures pour donner l'impression que le contenu principal est plus récent qu'il ne l'est vraiment.
Google privilégie le contenu qui existe de longue date (qui a fait ses preuves) plutôt que les nouveaux contenus.
Vrai
Faux
Si votre page est utile, peu importe que son contenu soit nouveau ou ancien.
Google préfère les URL propres et n'apprécie pas les paramètres de requête.
Vrai
Faux
Nous pouvons explorer les paramètres.
Plus vos pages se chargent et s'affichent rapidement, plus elles ont de chance d'être explorées par Google.
Vrai
Vrai, dans la mesure où nos ressources sont limitées par le temps et par le nombre de robots d'exploration dont nous disposons. Dès lors, plus vous nous proposez de pages dans une période de temps réduite, plus nous pouvons en explorer. Cependant, nous pouvons consacrer plus de temps à l'exploration d'un site qui contient des informations plus importantes, même s'il est plus lent. De manière générale, il est préférable d'accélérer le chargement et l'affichage de votre site pour améliorer l'expérience utilisateur plutôt que pour augmenter la couverture de l'exploration. Il est beaucoup plus simple d'aider Google à explorer le contenu approprié que de s'attendre à ce qu'il explore tout votre site à chaque fois. Notez que l'exploration d'un site implique à la fois l'extraction et l'affichage du contenu. Le temps passé à afficher la page compte autant que le temps passé à demander la page. Par conséquent, en accélérant l'affichage de vos pages, vous augmentez également la vitesse d'exploration.
Faux
Les sites de petite taille ne sont pas explorés aussi souvent que les grands.
Vrai
Faux
Si un site propose du contenu intéressant qui change souvent, nous l'explorons souvent, quelle que soit sa taille.
Plus votre contenu est facilement accessible depuis la page d'accueil, plus Google y prête attention.
Vrai
Vrai et faux
La page d'accueil de votre site en est souvent la page centrale. Par conséquent, les pages qui y sont directement liées peuvent être considérées comme plus importantes et être donc explorées plus souvent. Toutefois, cela ne signifie pas que ces pages seront mieux classées que les autres pages de votre site.
Faux
La gestion des versions d'URL est un bon moyen d'inciter Google à réexplorer mes pages.
Vrai
Vrai et faux
L'utilisation d'une URL pour laquelle la gestion des versions est activée afin d'inciter Google à la réexplorer plus tôt fonctionne probablement. Toutefois, cela n'est généralement pas nécessaire et consomme inutilement les ressources d'exploration si la page n'a pas été modifiée. Si vous utilisez des URL pour lesquelles la gestion des versions est activée afin d'indiquer le nouveau contenu à Google, vous ne devez modifier ces URL que lorsque le contenu correspondant a changé de manière significative.
Faux
La vitesse du site et les erreurs affectent mon budget d'exploration.
Vrai
En rendant un site plus rapide, vous améliorez l'expérience utilisateur tout en augmentant la vitesse d'exploration. Pour Googlebot, un site rapide est le signe de serveurs en bon état : il peut accéder à un contenu plus important avec le même nombre de connexions. En revanche, un nombre important de codes d'état de réponse HTTP 5xx (erreurs de serveur) ou de problèmes de délai avant expiration de la connexion indiquent le contraire, et l'exploration ralentit. Nous recommandons de prêter attention au rapport "Statistiques sur l'exploration" dans la Search Console et de limiter le nombre d'erreurs de serveur.
Faux
L'exploration est un facteur de classement.
Vrai
Faux
L'amélioration de la vitesse d'exploration n'entraîne pas nécessairement un meilleur classement dans les résultats de recherche. Google utilise de nombreux signaux pour classer les résultats. Même si l'exploration est nécessaire pour qu'une page figure dans les résultats de recherche, elle n'influe pas sur le classement.
Les autres versions des URL et le contenu intégré comptent dans le budget d'exploration.
Vrai
En général, toutes les URL que Googlebot explore comptent dans le budget d'exploration d'un site. Les autres versions des URL, comme les versions AMP ou "hreflang", ainsi que le contenu intégré, comme le contenu CSS et JavaScript (y compris les extractions XHR) peuvent nécessiter une exploration et utiliser ainsi le budget d'exploration d'un site.
Faux
Je peux contrôler Googlebot à l'aide de la règle "crawl-delay".
Vrai
Faux
La règle non standard "crawl-delay" d'un fichier robots.txt n'est pas traitée par Googlebot.
La règle nofollow a une incidence sur le budget d'exploration.
Vrai
Vrai et faux
Toute URL explorée a une incidence sur le budget d'exploration. Par conséquent, même si votre page marque une URL avec l'instruction nofollow, elle peut toujours être explorée si une autre page de votre site ou toute page disponible sur le Web n'étiquette pas ce lien avec cette instruction nofollow.
Faux
Je peux utiliser noindex pour contrôler le budget d'exploration.
Vrai
Vrai et faux
Toute URL explorée a une incidence sur le budget d'exploration. Google doit explorer la page pour trouver la règle noindex.

Toutefois, noindex est là pour vous aider à exclure des contenus de l'index. Si vous souhaitez vous assurer que ces pages n'entrent pas dans l'index Google, continuez à utiliser noindex et ne vous souciez pas du budget d'exploration. Il est également important de noter que si vous supprimez des URL de l'index Google avec noindex ou une autre méthode, Googlebot peut se concentrer sur d'autres URL de votre site, ce qui signifie que noindex peut libérer indirectement une partie du budget d'exploration de votre site.
Faux
Les pages qui diffusent les codes d'état HTTP 4xx gaspillent leur budget d'exploration.
Vrai
Faux
Les pages qui diffusent des codes d'état HTTP 4xx (sauf 429) ne gaspillent pas votre budget d'exploration. Google a tenté d'explorer la page, mais a reçu un code d'état et aucun autre contenu.