Handbuch für Websiteinhaber zur Verwaltung des Crawling-Budgets

In diesem Handbuch wird beschrieben, wie du das Crawling sehr großer und häufig aktualisierter Websites durch Google optimieren kannst.

Wenn deine Website nicht viele Seiten hat, die sich schnell ändern, oder falls die Seiten anscheinend noch an dem Tag gecrawlt werden, an dem sie veröffentlicht wurden, brauchst du dieses Handbuch nicht zu lesen. Es sollte ausreichen, wenn du die Sitemap auf dem neuesten Stand hältst und regelmäßig die Indexabdeckung prüfst.

Falls du Inhalte hast, die schon länger verfügbar sind, aber nie indexiert wurden, ist das ein anderes Problem. Verwende dann das URL-Prüftool, um herauszufinden, warum deine Seite nicht indexiert wird.

Für wen ist dieses Handbuch gedacht?

Dies ist ein Handbuch für fortgeschrittene Nutzer, die Folgendes haben:

  • große Websites (über 1 Million einzelne Seiten), deren Inhalt sich häufig (einmal pro Woche) ändert oder
  • mittelgroße Websites (mehr als 10.000 einzelne Seiten) mit Inhalten, die sich sehr schnell (täglich) ändern.
  • Websites, bei denen ein Großteil ihrer gesamten URLs von der Search Console als Gefunden – zurzeit nicht indexiert klassifiziert wurde

Allgemeine Grundlagen des Crawlings

Das Web ist riesig und übersteigt die Möglichkeiten von Google, jede verfügbare URL zu ermitteln und zu indexieren. Deshalb hat der Googlebot nur begrenzt Zeit, eine bestimmte Website zu crawlen. Die Zeit und die Ressourcen, die Google für das Crawling einer Website aufwendet, werden als das Crawling-Budget bezeichnet. Beachte, dass nicht alles, was auf deiner Website gecrawlt wird, auch notwendigerweise indexiert wird. Jede Seite muss evaluiert, konsolidiert und bewertet werden, um zu entscheiden, ob sie nach dem Crawling indexiert wird.

Das Crawling-Budget wird durch zwei Hauptelemente bestimmt: das Crawling-Kapazitätslimit und den Crawling-Bedarf.

Crawling-Kapazitätslimit

Beim Crawling deiner Website durch den Googlebot sollen alle deine wichtigen Inhalte abgedeckt werden, ohne deine Server zu überlasten. Deshalb berechnet der Googlebot das Crawling-Kapazitätslimit, das angibt, wie viele Verbindungen der Googlebot maximal gleichzeitig für das Crawling einer Website verwenden darf, und wie viel Zeit zwischen Abrufen vergeht.

Das Crawling-Kapazitätslimit kann sich aus verschiedenen Gründen erhöhen oder verringern:

  • Crawling-Status: Wenn die Website eine Zeit lang schnell reagiert, wird das Limit erhöht, sodass mehr Verbindungen für das Crawling verwendet werden können. Falls die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich die Begrenzung und der Googlebot crawlt weniger.
  • Crawling-Limits von Google: Google hat sehr viele Rechner, aber auch nicht unbegrenzt viele. Auch wir müssen uns gut überlegen, wie wir unsere Ressourcen einsetzen.

Crawling-Bedarf

Google crawlt eine Website in der Regel so lange, wie es aufgrund ihrer Größe, der Aktualisierungshäufigkeit, Seitenqualität und Relevanz im Vergleich zu anderen Websites nötig ist.

Die folgenden Faktoren spielen bei der Bestimmung des Crawling-Bedarfs eine wichtige Rolle:

  • Wahrgenommenes Inventar: Wenn der Googlebot von dir keine weiteren Hinweise erhält, versucht er, alle oder die meisten URLs deiner Website zu crawlen, die ihm bekannt sind. Falls viele dieser URLs Duplikate sind oder aus einem anderen Grund nicht gecrawlt werden sollen (z. B. weil sie entfernt wurden oder unwichtig sind), wird dadurch viel Zeit beim Crawling deiner Website verschwendet. Das ist der Faktor, den du am stärksten beeinflussen kannst.
  • Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, damit sie in unserem Index immer aktuell sind.
  • Aktualität: Unsere Systeme versuchen, Dokumente oft genug zu crawlen, sodass Änderungen schnell erkannt werden.

Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.

Zusammenfassung

Anhand der Crawling-Kapazität und des Crawling-Bedarfs bestimmt Google das Crawling-Budget, das für die URLs einer Website aufgewendet werden soll, die der Googlebot crawlen kann und möchte. Selbst wenn das Crawling-Kapazitätslimit nicht erreicht wird, crawlt der Googlebot deine Website weniger, falls der Crawling-Bedarf gering ist.

Best Practices

Wende diese Best Practices an, um die Crawling-Effizienz zu maximieren:

  • Verwalte dein URL-Inventar. Teile Google über die entsprechenden Tools mit, welche Seiten gecrawlt werden sollen und welche nicht. Wenn Google zu viel Zeit mit dem Crawling von URLs verbringt, die sich nicht für den Index eignen, entscheidet der Googlebot eventuell, dass es sich nicht lohnt, sich auch den Rest deiner Website anzusehen bzw. dafür dein Budget zu erhöhen.
    • Konsolidiere duplizierte Inhalte. Entferne duplizierte Inhalte, um das Crawling auf einzigartige Inhalte statt auf eindeutige URLs zu konzentrieren.
    • Blockiere das Crawling von URLs mithilfe von robots.txt. Einige Seiten sind möglicherweise für die Nutzer wichtig, sollten aber nicht unbedingt in den Suchergebnissen erscheinen. Das können beispielsweise Seiten mit unendlichem Scrollen sein, auf denen Informationen von verknüpften Seiten dupliziert werden, oder unterschiedlich sortierte Versionen derselben Seite. Wenn du sie nicht wie im ersten Stichpunkt beschrieben konsolidieren kannst, blockiere diese für die Suche unwichtigen Seiten mit der Datei robots.txt. Durch das Blockieren von URLs mit einer robots.txt-Datei verringert sich die Wahrscheinlichkeit, dass die URLs indexiert werden, signifikant.
    • Gib den Statuscode 404 oder 410 für dauerhaft entfernte Seiten zurück. Google vergisst keine URL, wenn sie einmal bekannt ist, aber ein 404-Statuscode ist ein starkes Signal dafür, eine URL nicht noch einmal zu crawlen. Blockierte URLs bleiben jedoch noch lange Teil deiner Crawling-Warteschlange und werden wieder gecrawlt, falls die Blockierung aufgehoben wird.
    • Beseitige soft 404-Fehler. Seiten mit soft 404-Fehlern werden weiterhin gecrawlt und verschwenden damit dein Crawling-Budget. Prüfe den Bericht zur Indexabdeckung auf soft 404-Fehler.
    • Halte deine Sitemaps auf dem neuesten Stand. Google liest deine Sitemap regelmäßig. Achte daher darauf, alle Inhalte anzugeben, die Google crawlen soll. Wenn deine Website aktualisierte Inhalte enthält, empfehlen wir, das Tag <lastmod> zu verwenden.
    • Vermeide lange Weiterleitungsketten. Diese wirken sich negativ auf das Crawling aus.
  • Ermögliche ein effizientes Laden deiner Seiten. Wenn Google deine Seiten schneller laden und rendern kann, können wir möglicherweise mehr Inhalte deiner Website lesen.
  • Überwache das Crawling deiner Website. Prüfe, ob es beim Crawling deiner Website Verfügbarkeitsprobleme gab, und suche nach Möglichkeiten, das Crawling effizienter zu gestalten.

Crawling und Indexierung deiner Website im Blick behalten

Dies sind die wichtigsten Schritte zum Beobachten des Crawling-Profils deiner Website:

  1. Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab
  2. Prüfen, ob es Seiten gibt, die nicht gecrawlt werden, obwohl sie gecrawlt werden sollten
  3. Prüfen, ob bestimmte Teile deiner Website schneller gecrawlt werden müssen, als es bisher der Fall ist
  4. Crawling-Effizienz deiner Website verbessern
  5. Übermäßiges Crawling vermeiden

Prüfen, ob es beim Crawling deiner Website durch den Googlebot Verfügbarkeitsprobleme gab

Wenn du die Verfügbarkeit deiner Website verbesserst, erhöht sich dadurch nicht zwangsläufig dein Crawling-Budget. Google ermittelt die Crawling-Frequenz anhand des Crawling-Bedarfs, wie zuvor beschrieben. Bei bestehenden Verfügbarkeitsproblemen kann Google deine Website jedoch nicht so oft wie gewünscht crawlen.

Problemdiagnose:

Prüfe im Bericht „Crawling-Statistik“ den Crawling-Verlauf des Googlebots für deine Website. Dort siehst du, wann Google auf deiner Website auf Verfügbarkeitsprobleme gestoßen ist. Wenn für deine Website Fehler oder Warnungen in Bezug auf die Verfügbarkeit angezeigt werden, suche in den Grafiken zur Hostverfügbarkeit nach Fällen, in denen die Googlebot-Anfragen die rote Linie für das Limit überstiegen. Klicke auf die Grafik, um zu sehen, welche URLs sich nicht aufrufen ließen, und versuche, sie Problemen auf deiner Website zuzuordnen.

Außerdem kannst du mit dem URL-Prüftool einige URLs auf deiner Website testen. Wenn das Tool die Warnung Hostlast überschritten zurückgibt, kann der Googlebot nicht so viele URLs deiner Website crawlen, wie er gefunden hat.

Problembehebung:

  • Informiere dich in der Dokumentation zum Bericht „Crawling-Statistik“, wie du Verfügbarkeitsprobleme erkennen und beheben kannst.
  • Blockiere das Crawling für Seiten, die nicht gecrawlt werden sollen. Siehe Abschnitt zum Verwalten des Inventars.
  • Beschleunige das Laden und Rendern von Seiten. Siehe Abschnitt zur Verbesserung der Crawling-Effizienz deiner Website.
  • Erhöhe deine Serverkapazität. Wenn beim Crawling deiner Website durch Google anscheinend regelmäßig das Limit der Bereitstellungskapazität erreicht wird und du wichtige URLs hast, die nicht so oft gecrawlt oder aktualisiert werden, wie sie sollten, kannst du mehr Bereitstellungsressourcen zur Verfügung stellen, sodass Google mehr Seiten deiner Website anfordern kann. Überprüfe im Crawling-Statistik-Bericht, ob die Crawling-Frequenz von Google häufig die festgelegte Crawling-Frequenz überschreitet. Wenn ja, solltest du für einen Monat die Bereitstellungsressourcen erhöhen und dann prüfen, ob die Crawling-Anfragen in diesem Zeitraum zugenommen haben.

Prüfen, ob bestimmte Teile deiner Website nicht gecrawlt werden, obwohl sie gecrawlt werden sollten

Google verbringt so viel Zeit auf deiner Website, wie nötig ist, um alle für Nutzer wertvollen Inhalte zu indexieren. Wenn der Googlebot wichtige Inhalte nicht crawlt, liegt das daran, dass er nicht von ihnen weiß, dass sie für Google blockiert sind, dass mangelnde Verfügbarkeit der Website den Zugriff durch Google beschränkt oder dass Google versucht, deine Website nicht zu überlasten.

Problemdiagnose:

Der Crawling-Verlauf deiner Website in der Search Console kann nicht nach URL oder Pfad gefiltert werden. Du kannst aber in deinen Website-Protokollen nachsehen, ob bestimmte URLs vom Googlebot gecrawlt wurden. Ob die gecrawlten URLs auch indexiert wurden, ist dabei eine ganz andere Frage.

Denke daran, dass es bei den meisten Websites einige Tage dauert, bis neue Seiten bemerkt werden. Erwarte nicht, dass neue URLs deiner Website noch am selben Tag gecrawlt werden. Eine Ausnahme sind zeitkritische Fälle wie Nachrichtenwebsites.

Problembehebung:

Wenn du deiner Website Seiten hinzufügst und sie nicht innerhalb eines angemessenen Zeitraums gecrawlt werden, ist vermutlich einer der folgenden Fälle eingetreten: Sie wurden von Google nicht bemerkt, die Inhalte sind blockiert, die maximale Bereitstellungskapazität deiner Website wurde erreicht oder dein Crawling-Budget ausgeschöpft.

  1. Informiere Google über deine neuen Seiten. Füge dazu deinen Sitemaps neue URLs hinzu.
  2. Achte darauf, dass durch die robots.txt-Regeln nicht versehentlich Seiten blockiert werden.
  3. Prüfe die Crawling-Prioritäten. Überlege dir gut, wie du dein Crawling-Budget nutzt. Verwalte dein Inventar und verbessere die Crawling-Effizienz deiner Website.
  4. Prüfe, ob die Bereitstellungskapazität ausreicht. Der Googlebot verringert das Crawling, wenn er feststellt, dass deine Server Schwierigkeiten dabei haben, auf Crawling-Anfragen zu antworten.

Beachte, dass auch gecrawlte Seiten nicht zwingend in den Suchergebnissen erscheinen, wenn sie für die Nutzer nicht wertvoll genug sind oder die Nutzernachfrage zu gering ist.

Prüfen, ob aktualisierte Inhalte schnell genug gecrawlt werden

Wenn wir neue oder aktualisierte Seiten deiner Website nicht crawlen, liegt das möglicherweise daran, dass wir die Seiten bzw. ihre Aktualisierung nicht bemerkt haben. Im Folgenden wird beschrieben, wie du uns über Seitenaktualisierungen informieren kannst.

Google bemüht sich, Seiten möglichst zeitnah zu prüfen und zu indexieren. Bei den meisten Websites dauert es jedoch mindestens drei Tage. Erwarte nicht, dass Google Seiten noch am Tag der Veröffentlichung bzw. Aktualisierung indexiert, es sei denn, es geht um eine Nachrichtenwebsite oder andere wertvolle, besonders zeitkritische Inhalte.

Problemdiagnose:

Sieh in deinen Website-Protokollen nach, wann bestimmte URLs vom Googlebot gecrawlt wurden.

Wenn du das Indexierungsdatum feststellen möchtest, verwende dazu das URL-Prüftool oder suche mit Google nach den von dir aktualisierten URLs.

Problembehebung:

Das solltest du tun:

  • Verwende eine News-Sitemap, falls deine Website Nachrichten enthält.
  • Verwende in Sitemaps das <lastmod>-Tag, um anzugeben, dass eine indexierte URL aktualisiert wurde.
  • Verwende eine einfache URL-Struktur, damit Google deine Seiten leichter finden kann.
  • Stelle standardmäßige, für Crawler zugängliche <a>-Links zur Verfügung, damit Google deine Seiten leichter findet.

Das solltest du vermeiden:

  • Reiche nicht dieselbe unveränderte Sitemap mehrmals pro Tag ein.
  • Erwarte nicht, dass der Googlebot alles in einer Sitemap crawlt oder dass das Crawling sofort erfolgt. Sitemaps sind für den Googlebot sehr nützlich, stellen für ihn aber nur Vorschläge dar.
  • Füge deinen Sitemaps keine URLs hinzu, die nicht in den Suchergebnissen erscheinen sollen. Andernfalls wird dein Crawling-Budget für Seiten verschwendet, die nicht indexiert werden sollten.

Crawling-Effizienz deiner Website verbessern

Laden von Seiten beschleunigen

Das Crawling durch Google wird durch Bandbreite, Zeit und die Verfügbarkeit von Googlebot-Instanzen begrenzt. Wenn dein Server schneller auf Anfragen antwortet, können wir möglicherweise mehr Seiten deiner Website crawlen. Allerdings möchte Google nur hochwertige Inhalte crawlen. Wenn du also Seiten mit geringer Qualität schneller machst, ist das für den Googlebot kein Anlass, einen größeren Teil deiner Website zu crawlen. Falls wir jedoch denken, dass wir hochwertige Inhalte deiner Website noch nicht crawlen, erhöhen wir wahrscheinlich dein Budget.

So kannst du deine Seiten und Ressourcen für das Crawling optimieren:

  • Verhindere mithilfe der robots.txt-Datei, dass der Googlebot umfangreiche, aber unwichtige Ressourcen lädt. Achte darauf, nur nicht unbedingt erforderliche Ressourcen zu blockieren, d. h. Ressourcen, die für das Verständnis der Seite nicht wichtig sind (z. B. dekorative Bilder).
  • Sorge dafür, dass sich deine Seiten schnell laden lassen.
  • Vermeide lange Weiterleitungsketten, da sie das Crawling beeinträchtigen.
  • Sowohl die Zeit für die Beantwortung von Serveranfragen als auch die für das Rendern von Seiten benötigte Zeit ist wichtig, einschließlich der Lade- und Ausführungszeit für eingebettete Ressourcen wie Bilder und Skripts. Achte auf große oder langsame Ressourcen, die für die Indexierung gebraucht werden.

Inhaltsänderungen mit HTTP-Statuscodes kommunizieren

Google unterstützt beim Crawling grundsätzlich die HTTP-Anfrageheader If-Modified-Since und If-None-Match. Die Google-Crawler senden die Header nicht bei allen Crawling-Versuchen. Ob sie gesendet werden, hängt vom Anwendungsfall der Anfrage ab. (Bei AdsBot beispielsweise ist die Wahrscheinlichkeit, dass die HTTP-Anfrageheader If-Modified-Since und If-None-Match gesendet werden, höher.) Wenn unsere Crawler den Header If-Modified-Since senden, ist der Wert des Headers das Datum und die Uhrzeit des letzten Crawlings der Inhalte. Basierend auf diesem Wert kann der Server dann den HTTP-Statuscode 304 (Not Modified) ohne Antworttext zurückgeben. In diesem Fall verwendet Google die zuletzt gecrawlte Version der Inhalte. Wenn die Inhalte nach dem vom Crawler im Header If-Modified-Since angegebenen Datum veröffentlicht wurden, kann der Server den HTTP-Statuscode 200 (OK) mit Antworttext zurückgeben.

Unabhängig von den Anfrageheadern kannst du bei jeder Googlebot-Anfrage den HTTP-Statuscode 304 (Not Modified) ohne Antworttext senden, wenn sich die Inhalte nicht geändert haben, seitdem der Googlebot die URL das letzte Mal besucht hat. Das spart Zeit und Ressourcen bei der Serververarbeitung und kann somit indirekt die Crawling-Effizienz verbessern.

URLs verbergen, die nicht in den Suchergebnissen erscheinen sollen

Das Verschwenden von Serverressourcen für nicht erforderlichen Seiten kann Google davon abhalten, Seiten zu crawlen, die für dich wichtig sind. Es dauert dann möglicherweise deutlich länger, bis Google hochwertige, neue oder aktualisierte Inhalte auf einer Website bemerkt.

Falls du auf deiner Website viele URLs verfügbar machst, die nicht von der Suche gecrawlt werden sollen, können dadurch das Crawling und die Indexierung einer Website beeinträchtigt werden. In der Regel fallen diese URLs in die folgenden Kategorien:

  • Facettensuche und Sitzungskennungen: Die Facettensuche ist in der Regel mit duplizierten Inhalten der Website verbunden. Durch Sitzungskennungen und andere URL-Parameter, mit denen eine Seite lediglich sortiert oder gefiltert wird, werden keine neuen Inhalte bereitgestellt. Verwende die robots.txt-Datei, um Seiten mit Facettensuche zu blockieren.
  • Duplicate Content: Hilf Google, Content-Duplikate zu erkennen, damit unnötiges Crawling vermieden werden kann.
  • Seiten mit soft 404-Fehlern: Gib einen 404-Code zurück, wenn eine Seite nicht mehr existiert.
  • Gehackte Seiten: Sieh dir den Bericht „Sicherheitsprobleme“ an und korrigiere oder entferne darin aufgeführte gehackte Seiten.
  • Unbegrenzte Bereiche und Proxys: Blockiere sie mithilfe der robots.txt-Datei für das Crawling.
  • Niedrige Qualität und Spaminhalte: Diese Dinge sollten selbstverständlich vermieden werden.
  • Einkaufswagenseiten, Seiten mit unendlichem Scrollen sowie Seiten, auf denen eine Aktion ausgeführt wird (z. B. Anmeldung oder Start des Kaufvorgangs).

Das solltest du tun:

  • Verwende die robots.txt-Datei, wenn eine Ressource oder Seite überhaupt nicht von Google gecrawlt werden sollte.
  • Falls eine Ressource auf mehreren Seiten verwendet wird, z. B. ein Bild oder eine JavaScript-Datei, verweise auf jeder Seite mit derselben URL darauf, damit Google die Ressource im Cache speichern und wiederverwenden kann, ohne sie mehrmals anfordern zu müssen.

Das solltest du vermeiden:

  • Seiten oder Verzeichnisse sollten nicht fortlaufend der robots.txt-Datei hinzugefügt oder daraus entfernt werden, um Crawling-Budget anderen Teilen deiner Website zuzuweisen. Verwende die robots.txt-Datei nur für Seiten oder Ressourcen, die langfristig nicht bei Google erscheinen sollen.
  • Tausche keine Sitemaps und verwende keine vorübergehenden Mechanismen zum Verbergen, um Crawling-Budget neu zuzuweisen.

Umgang mit übermäßigem Crawlen deiner Website (Notfälle)

Der Googlebot hat Algorithmen, die verhindern sollen, dass er deine Website mit Crawling-Anfragen überlastet. Wenn du dennoch eine Überlastung feststellst, kannst du verschiedene Maßnahmen ergreifen.

Problemdiagnose:

Überwache deinen Server auf ein Übermaß an Googlebot-Anfragen an deine Website.

Problembehebung:

Für Notfälle empfehlen wir die folgenden Schritte, um ein zu intensives Crawling durch den Googlebot zu verringern:

  1. Wenn dein Server überlastet ist, gib für Googlebot-Anfragen vorübergehend 503- oder 429-HTTP-Antwortcodes zurück. Der Googlebot versucht etwa zwei Tage lang, diese URLs zu crawlen. Wenn du länger als ein paar Tage Fehlercodes zurückgibst, die eine Nichtverfügbarkeit signalisieren, verringert oder stoppt Google dauerhaft das Crawling von URLs auf deiner Website. Führe daher die als nächstes genannten zusätzlichen Schritte aus.
  2. Falls die Crawling-Frequenz sinkt, beende die Rückgabe von 503- oder 429-HTTP-Antwortcodes auf Crawling-Anfragen. Wenn der Code 503 oder 429 länger als zwei Tage zurückgegeben wird, entfernt Google die entsprechenden URLs aus dem Index.
  3. Beobachten Sie das Crawling und Ihre Hostkapazität im Laufe der Zeit.
  4. Wenn der problematische Crawler einer der AdsBot-Crawler ist, wird das Problem wahrscheinlich dadurch verursacht, dass du für deine Website Ziele für dynamische Suchanzeigen erstellt hast, die Google zu crawlen versucht. Dieses Crawling wird alle drei Wochen wiederholt. Falls du nicht die für diese Crawling-Vorgänge nötige Serverkapazität hast, begrenze entweder die Anzeigenziele oder erhöhe die Bereitstellungskapazität.

Mythen und Fakten zum Crawling

Teste dein Wissen dazu, wie Google Websites crawlt und indexiert.

Durch die Komprimierung von Sitemaps lässt sich das Crawling-Budget erhöhen.
Wahr
Falsch
Das funktioniert nicht. Komprimierte Sitemaps müssen weiterhin vom Server abgerufen werden, sodass Google nicht viel Crawling-Zeit oder Aufwand spart, wenn du komprimierte Sitemaps sendest.
Da Google aktuellere Inhalte bevorzugt, sollten an einer Seite immer wieder kleine Änderungen vorgenommen werden.
Wahr
Falsch
Inhalte werden nach ihrer Qualität und nicht nach dem Alter bewertet. Erstelle und aktualisiere Inhalte, wenn es nötig ist. Es bringt nichts, Seiten durch unbedeutende Änderungen und Aktualisierung des Seitendatums künstlich neuer wirken zu lassen.
Google bevorzugt alte Inhalte gegenüber neuen Inhalten.
Wahr
Falsch
Wenn deine Seite nützlich ist, ist sie das unabhängig von ihrem Alter.
Google bevorzugt „saubere“ URLs und mag keine Suchparameter.
Wahr
Falsch
Wir können Parameter crawlen.
Je schneller deine Seiten geladen und gerendert werden, desto mehr Inhalte kann Google crawlen.
Wahr
Stimmt in gewisser Weise: Unsere Ressourcen werden durch die verfügbare Zeit und die Anzahl der Crawling-Bots begrenzt. Wenn du uns innerhalb eines begrenzten Zeitraums mehr Seiten zur Verfügung stellst, können wir mehr Seiten crawlen. Es kann jedoch sein, dass wir mehr Zeit für das Crawling einer Website mit wichtigen Informationen aufwenden, selbst wenn die Website langsamer ist. Eine Website schneller zu machen, bringt wahrscheinlich mehr für die Nutzerfreundlichkeit als für die Crawling-Abdeckung. Es ist viel einfacher, Google dabei zu helfen, die richtigen Inhalte zu crawlen, als jedes Mal alle deine Inhalte zu crawlen. Beachte, dass beim Crawling einer Website die Inhalte sowohl abgerufen als auch gerendert werden müssen. Der Zeitaufwand beim Rendern einer Seite spielt genauso eine Rolle wie der Zeitaufwand beim Anfordern der Seite. Wenn sich deine Seiten also schneller rendern lassen, erhöht sich dadurch auch die Crawling-Geschwindigkeit.
Falsch
Kleine Websites werden nicht so oft gecrawlt wie große.
Wahr
Falsch
Wenn auf einer Website wichtige Inhalte bereitgestellt werden, die sich häufig ändern, wird sie von uns unabhängig von der Größe häufig gecrawlt.
Je näher sich ein Inhalt an der Startseite befindet, als desto wichtiger stuft Google ihn ein.
Wahr
Stimmt teilweise
Die Startseite einer Website ist oft die wichtigste Seite. Daher werden Seiten, die direkt mit der Startseite verknüpft sind, eventuell als wichtiger betrachtet und darum häufiger gecrawlt. Das bedeutet jedoch nicht, dass diese Seiten ein höheres Ranking als andere Seiten der Website haben.
Falsch
Versionsangaben in URLs sind eine gute Möglichkeit, Google zum erneuten Crawling von Seiten zu bewegen.
Wahr
Stimmt teilweise
Wenn du für eine Seite eine URL mit einer Versionsangabe verwendest, wird Google die Seite wahrscheinlich eher crawlen. Oft ist das aber unnötig und führt zur Verschwendung von Crawling-Ressourcen, falls die Seite nicht tatsächlich geändert wurde. Falls du URLs mit Versionsangaben verwendest, um auf neue Inhalte hinzuweisen, solltest du die URL nur ändern, wenn sich der Seiteninhalt in relevanter Weise geändert hat.
Falsch
Die Websitegeschwindigkeit und Fehler wirken sich auf das Crawling-Budget aus.
Wahr
Eine schnellere Website ist nutzerfreundlicher und ermöglicht gleichzeitig eine höhere Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-HTTP-Antwortcodes (Serverfehler) oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich. Wir empfehlen, den Bericht „Crawling-Statistik“ in der Search Console zu beobachten und die Anzahl der Serverfehler möglichst gering zu halten.
Falsch
Das Crawling spielt eine Rolle für das Ranking.
Wahr
Falsch
Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt viele Indikatoren für das Ranking von Ergebnissen. Das Crawling ist zwar erforderlich, damit eine Seite in den Suchergebnissen erscheint, spielt aber keine Rolle für das Ranking.
Alternative URLs und eingebettete Inhalte nehmen Crawling-Budget in Anspruch.
Wahr
Im Allgemeinen wird für jede URL, die der Googlebot crawlt, ein Teil des Crawling-Budgets der Website in Anspruch genommen. Alternative URLs, wie URLs von AMP-Seiten oder hreflang-Versionen, sowie eingebettete Inhalte wie CSS und JavaScript, einschließlich XHR-Abrufen, müssen gecrawlt werden und verbrauchen einen Teil des Crawling-Budgets einer Website.
Falsch
Der Googlebot kann mit der Regel „crawl-delay“ gesteuert werden.
Wahr
Falsch
Die nicht zum Standard gehörende robots.txt-Regel „crawl-delay“ wird vom Googlebot nicht verarbeitet.
Die Regel nofollow wirkt sich auf das Crawling-Budget aus.
Wahr
Stimmt teilweise
Jede gecrawlte URL wirkt sich auf das Crawling-Budget aus. Selbst wenn eine URL im Code deiner Seite mit nofollow gekennzeichnet ist, kann sie gecrawlt werden, falls eine andere Seite deiner Website oder eine beliebige Seite im Web die URL nicht mit nofollow gekennzeichnet hat.
Falsch
Ich kann das Crawling-Budget mit noindex steuern.
Wahr
Stimmt teilweise
Jede gecrawlte URL wirkt sich auf das Crawling-Budget aus. Damit die noindex-Regel gefunden wird, muss Google die Seite crawlen.

noindex soll dir aber dabei helfen, bestimmte Dinge aus dem Index herauszuhalten. Wenn du sichergehen möchtest, dass diese Seiten nicht in den Google-Index aufgenommen werden, kannst du noindex weiterhin nutzen und brauchst dir keine Gedanken um das Crawling-Budget zu machen. Wenn du URLs mit noindex oder auf andere Weise aus dem Google-Index entfernst, kann sich der Googlebot auf andere URLs auf deiner Website konzentrieren. noindex kann also langfristig indirekt das Crawling-Budget deiner Website entlasten.
Falsch
Seiten mit 4xx-HTTP-Statuscodes verschwenden einen Teil des Crawling-Budgets.
Wahr
Falsch
Seiten, die 4xx-HTTP-Statuscodes (außer 429) bereitstellen, verschwenden nichts vom Crawling-Budget. Google hat versucht, die Seite zu crawlen, hat jedoch einen Statuscode und keine anderen Inhalte erhalten.