Handbuch für Websiteinhaber zur Verwaltung des Crawling-Budgets
In diesem Handbuch wird beschrieben, wie du das Crawling sehr großer und häufig aktualisierter Websites durch Google optimieren kannst.
Wenn deine Website nicht viele Seiten hat, die sich schnell ändern, oder falls die Seiten anscheinend noch an dem Tag gecrawlt werden, an dem sie veröffentlicht wurden, brauchst du dieses Handbuch nicht zu lesen. Es sollte ausreichen, wenn du die Sitemap auf dem neuesten Stand hältst und regelmäßig die Indexabdeckung prüfst.
Falls du Inhalte hast, die schon länger verfügbar sind, aber nie indexiert wurden, ist das ein anderes Problem. Verwende dann das URL-Prüftool, um herauszufinden, warum deine Seite nicht indexiert wird.
Für wen ist dieses Handbuch gedacht?
Dies ist ein Handbuch für fortgeschrittene Nutzer, die Folgendes haben:
- große Websites (über 1 Million einzelne Seiten), deren Inhalt sich häufig (einmal pro Woche) ändert oder
- mittelgroße Websites (mehr als 10.000 einzelne Seiten) mit Inhalten, die sich sehr schnell (täglich) ändern.
- Websites, bei denen ein Großteil ihrer gesamten URLs von der Search Console als Gefunden – zurzeit nicht indexiert klassifiziert wurde
Allgemeine Grundlagen des Crawlings
Das Web ist riesig und übersteigt die Möglichkeiten von Google, jede verfügbare URL zu ermitteln und zu indexieren. Deshalb hat der Googlebot nur begrenzt Zeit, eine bestimmte Website zu crawlen. Die Zeit und die Ressourcen, die Google für das Crawling einer Website aufwendet, werden als das Crawling-Budget bezeichnet. Beachte, dass nicht alles, was auf deiner Website gecrawlt wird, auch notwendigerweise indexiert wird. Jede Seite muss evaluiert, konsolidiert und bewertet werden, um zu entscheiden, ob sie nach dem Crawling indexiert wird.
Das Crawling-Budget wird durch zwei Hauptelemente bestimmt: das Crawling-Kapazitätslimit und den Crawling-Bedarf.
Crawling-Kapazitätslimit
Beim Crawling deiner Website durch den Googlebot sollen alle deine wichtigen Inhalte abgedeckt werden, ohne deine Server zu überlasten. Deshalb berechnet der Googlebot das Crawling-Kapazitätslimit, das angibt, wie viele Verbindungen der Googlebot maximal gleichzeitig für das Crawling einer Website verwenden darf, und wie viel Zeit zwischen Abrufen vergeht.
Das Crawling-Kapazitätslimit kann sich aus verschiedenen Gründen erhöhen oder verringern:
- Crawling-Status: Wenn die Website eine Zeit lang schnell reagiert, wird das Limit erhöht, sodass mehr Verbindungen für das Crawling verwendet werden können. Falls die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich die Begrenzung und der Googlebot crawlt weniger.
- Crawling-Limits von Google: Google hat sehr viele Rechner, aber auch nicht unbegrenzt viele. Auch wir müssen uns gut überlegen, wie wir unsere Ressourcen einsetzen.
Crawling-Bedarf
Google crawlt eine Website in der Regel so lange, wie es aufgrund ihrer Größe, der Aktualisierungshäufigkeit, Seitenqualität und Relevanz im Vergleich zu anderen Websites nötig ist.
Die folgenden Faktoren spielen bei der Bestimmung des Crawling-Bedarfs eine wichtige Rolle:
- Wahrgenommenes Inventar: Wenn der Googlebot von dir keine weiteren Hinweise erhält, versucht er, alle oder die meisten URLs deiner Website zu crawlen, die ihm bekannt sind. Falls viele dieser URLs Duplikate sind oder aus einem anderen Grund nicht gecrawlt werden sollen (z. B. weil sie entfernt wurden oder unwichtig sind), wird dadurch viel Zeit beim Crawling deiner Website verschwendet. Das ist der Faktor, den du am stärksten beeinflussen kannst.
- Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, damit sie in unserem Index immer aktuell sind.
- Aktualität: Unsere Systeme versuchen, Dokumente oft genug zu crawlen, sodass Änderungen schnell erkannt werden.
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Zusammenfassung
Anhand der Crawling-Kapazität und des Crawling-Bedarfs bestimmt Google das Crawling-Budget, das für die URLs einer Website aufgewendet werden soll, die der Googlebot crawlen kann und möchte. Selbst wenn das Crawling-Kapazitätslimit nicht erreicht wird, crawlt der Googlebot deine Website weniger, falls der Crawling-Bedarf gering ist.
Best Practices
Wende diese Best Practices an, um die Crawling-Effizienz zu maximieren:
- Verwalte dein URL-Inventar. Teile Google über die entsprechenden Tools mit, welche Seiten gecrawlt werden sollen und welche nicht. Wenn Google zu viel Zeit mit dem Crawling von URLs verbringt, die sich nicht für den Index eignen, entscheidet der Googlebot eventuell, dass es sich nicht lohnt, sich auch den Rest deiner Website anzusehen bzw. dafür dein Budget zu erhöhen.
- Konsolidiere duplizierte Inhalte. Entferne duplizierte Inhalte, um das Crawling auf einzigartige Inhalte statt auf eindeutige URLs zu konzentrieren.
- Blockiere das Crawling von URLs mithilfe von robots.txt. Einige Seiten sind möglicherweise für die Nutzer wichtig, sollten aber nicht unbedingt in den Suchergebnissen erscheinen. Das können beispielsweise Seiten mit unendlichem Scrollen sein, auf denen Informationen von verknüpften Seiten dupliziert werden, oder unterschiedlich sortierte Versionen derselben Seite. Wenn du sie nicht wie im ersten Stichpunkt beschrieben konsolidieren kannst, blockiere diese für die Suche unwichtigen Seiten mit der Datei robots.txt. Durch das Blockieren von URLs mit einer robots.txt-Datei verringert sich die Wahrscheinlichkeit, dass die URLs indexiert werden, signifikant.
-
Gib den Statuscode
404
oder410
für dauerhaft entfernte Seiten zurück. Google vergisst keine URL, wenn sie einmal bekannt ist, aber ein404
-Statuscode ist ein starkes Signal dafür, eine URL nicht noch einmal zu crawlen. Blockierte URLs bleiben jedoch noch lange Teil deiner Crawling-Warteschlange und werden wieder gecrawlt, falls die Blockierung aufgehoben wird. - Beseitige
soft 404
-Fehler. Seiten mitsoft 404
-Fehlern werden weiterhin gecrawlt und verschwenden damit dein Crawling-Budget. Prüfe den Bericht zur Indexabdeckung aufsoft 404
-Fehler. - Halte deine Sitemaps auf dem neuesten Stand. Google liest deine Sitemap regelmäßig. Achte daher darauf, alle Inhalte anzugeben, die Google crawlen soll. Wenn deine Website aktualisierte Inhalte enthält, empfehlen wir, das Tag
<lastmod>
zu verwenden. - Vermeide lange Weiterleitungsketten. Diese wirken sich negativ auf das Crawling aus.
- Ermögliche ein effizientes Laden deiner Seiten. Wenn Google deine Seiten schneller laden und rendern kann, können wir möglicherweise mehr Inhalte deiner Website lesen.
- Überwache das Crawling deiner Website. Prüfe, ob es beim Crawling deiner Website Verfügbarkeitsprobleme gab, und suche nach Möglichkeiten, das Crawling effizienter zu gestalten.
Crawling und Indexierung deiner Website im Blick behalten
Dies sind die wichtigsten Schritte zum Beobachten des Crawling-Profils deiner Website:
- Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab
- Prüfen, ob es Seiten gibt, die nicht gecrawlt werden, obwohl sie gecrawlt werden sollten
- Prüfen, ob bestimmte Teile deiner Website schneller gecrawlt werden müssen, als es bisher der Fall ist
- Crawling-Effizienz deiner Website verbessern
- Übermäßiges Crawling vermeiden
Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab
Wenn du die Verfügbarkeit deiner Website verbesserst, erhöht sich dadurch nicht zwangsläufig dein Crawling-Budget. Google ermittelt die Crawling-Frequenz anhand des Crawling-Bedarfs, wie zuvor beschrieben. Bei bestehenden Verfügbarkeitsproblemen kann Google deine Website jedoch nicht so oft wie gewünscht crawlen.
Problemdiagnose:
Prüfe im Bericht „Crawling-Statistik“ den Crawling-Verlauf des Googlebots für deine Website. Dort siehst du, wann Google auf deiner Website auf Verfügbarkeitsprobleme gestoßen ist. Wenn für deine Website Fehler oder Warnungen in Bezug auf die Verfügbarkeit angezeigt werden, suche in den Grafiken zur Hostverfügbarkeit nach Fällen, in denen die Googlebot-Anfragen die rote Linie für das Limit überstiegen. Klicke auf die Grafik, um zu sehen, welche URLs sich nicht aufrufen ließen, und versuche, sie Problemen auf deiner Website zuzuordnen.
Außerdem kannst du mit dem URL-Prüftool einige URLs auf deiner Website testen. Wenn das Tool die Warnung Hostlast überschritten zurückgibt, kann der Googlebot nicht so viele URLs deiner Website crawlen, wie er gefunden hat.
Problembehebung:
- Informiere dich in der Dokumentation zum Bericht „Crawling-Statistik“, wie du Verfügbarkeitsprobleme erkennen und beheben kannst.
- Blockiere das Crawling für Seiten, die nicht gecrawlt werden sollen. Siehe Abschnitt zum Verwalten des Inventars.
- Beschleunige das Laden und Rendern von Seiten. Siehe Abschnitt zur Verbesserung der Crawling-Effizienz deiner Website.
- Erhöhe deine Serverkapazität. Wenn beim Crawling deiner Website durch Google anscheinend regelmäßig das Limit der Bereitstellungskapazität erreicht wird und du wichtige URLs hast, die nicht so oft gecrawlt oder aktualisiert werden, wie sie sollten, kannst du mehr Bereitstellungsressourcen zur Verfügung stellen, sodass Google mehr Seiten deiner Website anfordern kann. Überprüfe im Crawling-Statistik-Bericht, ob die Crawling-Frequenz von Google häufig die festgelegte Crawling-Frequenz überschreitet. Wenn ja, solltest du für einen Monat die Bereitstellungsressourcen erhöhen und dann prüfen, ob die Crawling-Anfragen in diesem Zeitraum zugenommen haben.
Prüfen, ob bestimmte Teile deiner Website nicht gecrawlt werden, obwohl sie gecrawlt werden sollten
Google verbringt so viel Zeit auf deiner Website, wie nötig ist, um alle für Nutzer wertvollen Inhalte zu indexieren. Wenn der Googlebot wichtige Inhalte nicht crawlt, liegt das daran, dass er nicht von ihnen weiß, dass sie für Google blockiert sind, dass mangelnde Verfügbarkeit der Website den Zugriff durch Google beschränkt oder dass Google versucht, deine Website nicht zu überlasten.
Problemdiagnose:
Der Crawling-Verlauf deiner Website in der Search Console kann nicht nach URL oder Pfad gefiltert werden. Du kannst aber in deinen Website-Protokollen nachsehen, ob bestimmte URLs vom Googlebot gecrawlt wurden. Ob die gecrawlten URLs auch indexiert wurden, ist dabei eine ganz andere Frage.
Denke daran, dass es bei den meisten Websites einige Tage dauert, bis neue Seiten bemerkt werden. Erwarte nicht, dass neue URLs deiner Website noch am selben Tag gecrawlt werden. Eine Ausnahme sind zeitkritische Fälle wie Nachrichtenwebsites.
Problembehebung:
Wenn du deiner Website Seiten hinzufügst und sie nicht innerhalb eines angemessenen Zeitraums gecrawlt werden, ist vermutlich einer der folgenden Fälle eingetreten: Sie wurden von Google nicht bemerkt, die Inhalte sind blockiert, die maximale Bereitstellungskapazität deiner Website wurde erreicht oder dein Crawling-Budget ausgeschöpft.
- Informiere Google über deine neuen Seiten. Füge dazu deinen Sitemaps neue URLs hinzu.
- Achte darauf, dass durch die robots.txt-Regeln nicht versehentlich Seiten blockiert werden.
- Prüfe die Crawling-Prioritäten. Überlege dir gut, wie du dein Crawling-Budget nutzt. Verwalte dein Inventar und verbessere die Crawling-Effizienz deiner Website.
- Prüfe, ob die Bereitstellungskapazität ausreicht. Der Googlebot verringert das Crawling, wenn er feststellt, dass deine Server Schwierigkeiten dabei haben, auf Crawling-Anfragen zu antworten.
Beachte, dass auch gecrawlte Seiten nicht zwingend in den Suchergebnissen erscheinen, wenn sie für die Nutzer nicht wertvoll genug sind oder die Nutzernachfrage zu gering ist.
Prüfen, ob aktualisierte Inhalte schnell genug gecrawlt werden
Wenn wir neue oder aktualisierte Seiten deiner Website nicht crawlen, liegt das möglicherweise daran, dass wir die Seiten bzw. ihre Aktualisierung nicht bemerkt haben. Im Folgenden wird beschrieben, wie du uns über Seitenaktualisierungen informieren kannst.
Google bemüht sich, Seiten möglichst zeitnah zu prüfen und zu indexieren. Bei den meisten Websites dauert es jedoch mindestens drei Tage. Erwarte nicht, dass Google Seiten noch am Tag der Veröffentlichung bzw. Aktualisierung indexiert, es sei denn, es geht um eine Nachrichtenwebsite oder andere wertvolle, besonders zeitkritische Inhalte.
Problemdiagnose:
Sieh in deinen Website-Protokollen nach, wann bestimmte URLs vom Googlebot gecrawlt wurden.
Wenn du das Indexierungsdatum feststellen möchtest, verwende dazu das URL-Prüftool oder suche mit Google nach den von dir aktualisierten URLs.
Problembehebung:
Das solltest du tun:
- Verwende eine News-Sitemap, falls deine Website Nachrichten enthält.
- Verwende in Sitemaps das
<lastmod>
-Tag, um anzugeben, dass eine indexierte URL aktualisiert wurde. - Verwende eine einfache URL-Struktur, damit Google deine Seiten leichter finden kann.
- Stelle standardmäßige, für Crawler zugängliche
<a>
-Links zur Verfügung, damit Google deine Seiten leichter findet. - Wenn Ihre Website separate HTML-Seiten für Mobilgeräte und Computer verwendet, sollten Sie in der mobilen Version dieselben Links wie in der Desktopversion angeben. Wenn es nicht möglich ist, in der mobilen Version dieselben Links anzugeben, müssen sie in einer Sitemap-Datei enthalten sein. Google indexiert nur die mobile Version von Seiten. Wenn Sie die dort angezeigten Links einschränken, kann es länger dauern, bis neue Seiten gefunden werden.
Das solltest du vermeiden:
- Reiche nicht dieselbe unveränderte Sitemap mehrmals pro Tag ein.
- Erwarte nicht, dass der Googlebot alles in einer Sitemap crawlt oder dass das Crawling sofort erfolgt. Sitemaps sind für den Googlebot sehr nützlich, stellen für ihn aber nur Vorschläge dar.
- Füge deinen Sitemaps keine URLs hinzu, die nicht in den Suchergebnissen erscheinen sollen. Andernfalls wird dein Crawling-Budget für Seiten verschwendet, die nicht indexiert werden sollten.
Crawling-Effizienz deiner Website verbessern
Laden von Seiten beschleunigen
Das Crawling durch Google wird durch Bandbreite, Zeit und die Verfügbarkeit von Googlebot-Instanzen begrenzt. Wenn dein Server schneller auf Anfragen antwortet, können wir möglicherweise mehr Seiten deiner Website crawlen. Allerdings möchte Google nur hochwertige Inhalte crawlen. Wenn du also Seiten mit geringer Qualität schneller machst, ist das für den Googlebot kein Anlass, einen größeren Teil deiner Website zu crawlen. Falls wir jedoch denken, dass wir hochwertige Inhalte deiner Website noch nicht crawlen, erhöhen wir wahrscheinlich dein Budget.
So kannst du deine Seiten und Ressourcen für das Crawling optimieren:
- Verhindere mithilfe der robots.txt-Datei, dass der Googlebot umfangreiche, aber unwichtige Ressourcen lädt. Achte darauf, nur nicht unbedingt erforderliche Ressourcen zu blockieren, d. h. Ressourcen, die für das Verständnis der Seite nicht wichtig sind (z. B. dekorative Bilder).
- Sorge dafür, dass sich deine Seiten schnell laden lassen.
- Vermeide lange Weiterleitungsketten, da sie das Crawling beeinträchtigen.
- Sowohl die Zeit für die Beantwortung von Serveranfragen als auch die für das Rendern von Seiten benötigte Zeit ist wichtig, einschließlich der Lade- und Ausführungszeit für eingebettete Ressourcen wie Bilder und Skripts. Achte auf große oder langsame Ressourcen, die für die Indexierung gebraucht werden.
Inhaltsänderungen mit HTTP-Statuscodes kommunizieren
Google unterstützt beim Crawling grundsätzlich die HTTP-Anfrageheader If-Modified-Since
und If-None-Match
. Die Google-Crawler senden die Header nicht bei allen Crawling-Versuchen. Ob sie gesendet werden, hängt vom Anwendungsfall der Anfrage ab. (Bei AdsBot beispielsweise ist die Wahrscheinlichkeit, dass die HTTP-Anfrageheader If-Modified-Since
und If-None-Match
gesendet werden, höher.) Wenn unsere Crawler den Header If-Modified-Since
senden, ist der Wert des Headers das Datum und die Uhrzeit des letzten Crawlings der Inhalte. Basierend auf diesem Wert kann der Server dann den HTTP-Statuscode 304 (Not Modified)
ohne Antworttext zurückgeben. In diesem Fall verwendet Google die zuletzt gecrawlte Version der Inhalte. Wenn die Inhalte nach dem vom Crawler im Header If-Modified-Since
angegebenen Datum veröffentlicht wurden, kann der Server den HTTP-Statuscode 200 (OK)
mit Antworttext zurückgeben.
Unabhängig von den Anfrageheadern kannst du bei jeder Googlebot-Anfrage den HTTP-Statuscode 304 (Not Modified)
ohne Antworttext senden, wenn sich die Inhalte nicht geändert haben, seitdem der Googlebot die URL das letzte Mal besucht hat. Das spart Zeit und Ressourcen bei der Serververarbeitung und kann somit indirekt die Crawling-Effizienz verbessern.
URLs verbergen, die nicht in den Suchergebnissen erscheinen sollen
Das Verschwenden von Serverressourcen für nicht erforderlichen Seiten kann Google davon abhalten, Seiten zu crawlen, die für dich wichtig sind. Es dauert dann möglicherweise deutlich länger, bis Google hochwertige, neue oder aktualisierte Inhalte auf einer Website bemerkt.
Falls du auf deiner Website viele URLs verfügbar machst, die nicht von der Suche gecrawlt werden sollen, können dadurch das Crawling und die Indexierung einer Website beeinträchtigt werden. In der Regel fallen diese URLs in die folgenden Kategorien:
- Facettensuche und Sitzungskennungen: Die Facettensuche ist in der Regel mit duplizierten Inhalten der Website verbunden. Durch Sitzungskennungen und andere URL-Parameter, mit denen eine Seite lediglich sortiert oder gefiltert wird, werden keine neuen Inhalte bereitgestellt. Verwende die robots.txt-Datei, um Seiten mit Facettensuche zu blockieren.
- Duplicate Content: Hilf Google, Content-Duplikate zu erkennen, damit unnötiges Crawling vermieden werden kann.
- Seiten mit
soft 404
-Fehlern: Gib einen404
-Code zurück, wenn eine Seite nicht mehr existiert. - Gehackte Seiten: Sieh dir den Bericht „Sicherheitsprobleme“ an und korrigiere oder entferne darin aufgeführte gehackte Seiten.
- Unbegrenzte Bereiche und Proxys: Blockiere sie mithilfe der robots.txt-Datei für das Crawling.
- Niedrige Qualität und Spaminhalte: Diese Dinge sollten selbstverständlich vermieden werden.
- Einkaufswagenseiten, Seiten mit unendlichem Scrollen sowie Seiten, auf denen eine Aktion ausgeführt wird (z. B. Anmeldung oder Start des Kaufvorgangs).
Das solltest du tun:
- Verwende die robots.txt-Datei, wenn eine Ressource oder Seite überhaupt nicht von Google gecrawlt werden sollte.
- Falls eine Ressource auf mehreren Seiten verwendet wird, z. B. ein Bild oder eine JavaScript-Datei, verweise auf jeder Seite mit derselben URL darauf, damit Google die Ressource im Cache speichern und wiederverwenden kann, ohne sie mehrmals anfordern zu müssen.
Das solltest du vermeiden:
- Seiten oder Verzeichnisse sollten nicht fortlaufend der robots.txt-Datei hinzugefügt oder daraus entfernt werden, um Crawling-Budget anderen Teilen deiner Website zuzuweisen. Verwende die robots.txt-Datei nur für Seiten oder Ressourcen, die langfristig nicht bei Google erscheinen sollen.
- Tausche keine Sitemaps und verwende keine vorübergehenden Mechanismen zum Verbergen, um Crawling-Budget neu zuzuweisen.
Umgang mit übermäßigem Crawlen deiner Website (Notfälle)
Der Googlebot hat Algorithmen, die verhindern sollen, dass er deine Website mit Crawling-Anfragen überlastet. Wenn du dennoch eine Überlastung feststellst, kannst du verschiedene Maßnahmen ergreifen.
Problemdiagnose:
Überwache deinen Server auf ein Übermaß an Googlebot-Anfragen an deine Website.
Problembehebung:
Für Notfälle empfehlen wir die folgenden Schritte, um ein zu intensives Crawling durch den Googlebot zu verringern:
- Wenn dein Server überlastet ist, gib für Googlebot-Anfragen vorübergehend
503
- oder429
-HTTP-Antwortcodes zurück. Der Googlebot versucht etwa zwei Tage lang, diese URLs zu crawlen. Wenn du länger als ein paar Tage Fehlercodes zurückgibst, die eine Nichtverfügbarkeit signalisieren, verringert oder stoppt Google dauerhaft das Crawling von URLs auf deiner Website. Führe daher die als nächstes genannten zusätzlichen Schritte aus. -
Falls die Crawling-Frequenz sinkt, beende die Rückgabe von
503
- oder429
-HTTP-Antwortcodes auf Crawling-Anfragen. Wenn der Code503
oder429
länger als zwei Tage zurückgegeben wird, entfernt Google die entsprechenden URLs aus dem Index. - Beobachten Sie das Crawling und Ihre Hostkapazität im Laufe der Zeit.
- Wenn der problematische Crawler einer der AdsBot-Crawler ist, wird das Problem wahrscheinlich dadurch verursacht, dass du für deine Website Ziele für dynamische Suchanzeigen erstellt hast, die Google zu crawlen versucht. Dieses Crawling wird alle drei Wochen wiederholt. Falls du nicht die für diese Crawling-Vorgänge nötige Serverkapazität hast, begrenze entweder die Anzeigenziele oder erhöhe die Bereitstellungskapazität.
Mythen und Fakten zum Crawling
Teste dein Wissen dazu, wie Google Websites crawlt und indexiert.
5xx
-HTTP-Antwortcodes (Serverfehler) oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich. Wir empfehlen, den Bericht „Crawling-Statistik“ in der Search Console zu beobachten und die Anzahl der Serverfehler möglichst gering zu halten.
nofollow
wirkt sich auf das Crawling-Budget aus.nofollow
gekennzeichnet ist, kann sie gecrawlt werden, falls eine andere Seite deiner Website oder eine beliebige Seite im Web die URL nicht mit nofollow
gekennzeichnet hat.noindex
steuern.noindex
-Regel gefunden wird, muss Google die Seite crawlen.
noindex
soll dir aber dabei helfen, bestimmte Dinge aus dem Index herauszuhalten. Wenn du sichergehen möchtest, dass diese Seiten nicht in den Google-Index aufgenommen werden, kannst du noindex
weiterhin nutzen und brauchst dir keine Gedanken um das Crawling-Budget zu machen. Wenn du URLs mit noindex
oder auf andere Weise aus dem Google-Index entfernst, kann sich der Googlebot auf andere URLs auf deiner Website konzentrieren. noindex
kann also langfristig indirekt das Crawling-Budget deiner Website entlasten.
4xx
-HTTP-Statuscodes verschwenden einen Teil des Crawling-Budgets.4xx
-HTTP-Statuscodes (außer 429
) bereitstellen, verschwenden nichts vom Crawling-Budget. Google hat versucht, die Seite zu crawlen, hat jedoch einen Statuscode und keine anderen Inhalte erhalten.