Montag, 16. Januar 2017
In letzter Zeit machten verschiedene Definitionen für „Crawl Budget“ bzw. „Crawling-Budget“ die Runde. Allerdings gibt es keine treffende Bezeichnung für das, was mit „Crawling-Budget“ aus externer Sicht gemeint ist. Mit diesem Post möchten wir diesen Begriff und seine Bedeutung für den Googlebot genauer erläutern.
In der Regel müssen sich Publisher um das im Folgenden beschriebene Crawling-Budget keine Gedanken machen. Wenn neue Seiten tendenziell am Tag ihrer Veröffentlichung gecrawlt werden, muss sich der Webmaster nicht um das Crawling-Budget kümmern. Außerdem wird eine Website mit weniger als ein paar Tausend URLs meistens effizient gecrawlt.
Die Priorisierung, was wann gecrawlt werden soll und wie viele Ressourcen der Server, der die Website hostet, für das Crawling bereitstellen kann, ist eher für größere Websites wichtig bzw. für Websites, die zum Beispiel Seiten automatisch anhand von URL-Parametern erstellen.
Begrenzung der Crawling-Frequenz
Der Googlebot ist ein verantwortungsvoller Akteur im Web. Seine wichtigste Aufgabe ist es, Websites zu crawlen, ohne dabei die Nutzerfreundlichkeit dieser Websites zu beeinträchtigen. Mit der Begrenzung der Crawling-Frequenz wird die maximale Abrufrate für eine bestimmte Website begrenzt.
Einfach ausgedrückt ist dies die Anzahl der gleichzeitigen parallelen Verbindungen, die der Googlebot zum Crawlen der Website nutzen kann, sowie die Zeit, die er zwischen den Abrufvorgängen warten muss. Die Crawling-Frequenz kann sich abhängig von den folgenden beiden Faktoren erhöhen oder verringern:
- Crawling-Status: Wenn die Website eine Zeit lang sehr schnell reagiert, wird die Begrenzung erhöht, sodass mehr Verbindungen für das Crawling verwendet werden können. Falls die Website langsamer wird oder mit Serverfehlern antwortet, verringert sich die Begrenzung und der Googlebot crawlt weniger.
- In der Search Console festgelegte Begrenzung: Websiteinhaber können die Crawling-Frequenz ihrer Website einschränken. Eine höhere Begrenzung erhöht jedoch nicht automatisch das Crawling.
Crawling-Bedarf
Wenn es keinen akuten Indexierungsbedarf gibt, hält sich der Googlebot zurück, selbst wenn die Begrenzung der Crawling-Frequenz nicht erreicht ist. Wie hoch der Crawling-Bedarf ist, richtet sich nach den folgenden beiden Faktoren:
- Beliebtheit: URLs, die im Internet beliebter sind, werden tendenziell häufiger gecrawlt, damit sie in unserem Index immer aktuell sind.
- Veralteter Status: Unsere Systeme versuchen zu verhindern, dass sich veraltete URLs im Index befinden.
Darüber hinaus können Ereignisse, die die gesamte Website betreffen, wie etwa der Umzug einer Website, zu einer Zunahme des Crawling-Bedarfs führen, da der Inhalt unter den neuen URLs neu indexiert werden muss.
Crawling-Frequenz und Crawling-Bedarf zusammen ergeben das Crawling-Budget. Nach unserer Definition ist damit also die Anzahl der URLs gemeint, die der Googlebot crawlen kann und will.
Faktoren, die sich auf das Crawling-Budget auswirken
Nach unseren Analyseergebnissen kann es sich negativ auf das Crawling und die Indexierung einer Website auswirken, wenn zahlreiche URLs mit geringem Mehrwert vorhanden sind. Wir haben festgestellt, dass URLs mit geringem Mehrwert in die folgenden, nach ihrer Bedeutung aufgeführten Kategorien unterteilt werden können:
- Facettensuche und Sitzungskennungen
- Duplizierte Inhalte auf der Website
- Soft-Error-Seiten
- Gehackte Seiten
- Unbegrenzte Bereiche und Proxys
- Inhalte von geringer Qualität und Spam
Die Verschwendung von Serverressourcen für derartige Seiten geht zulasten des Crawlings von Seiten, die tatsächlichen wertvoll sind. Dadurch werden gute Inhalte auf einer Website unter Umständen erst mit deutlicher Verzögerung gefunden.
Wichtige Fragen
Das Crawling ist der Einstiegspunkt für Websites in die Suchergebnisse von Google. Effizientes Crawling hilft bei der Indexierung einer Website in der Google Suche.
Hat die Websitegeschwindigkeit Einfluss auf mein Crawling-Budget? Wie sieht es mit Fehlern aus?
Eine schnellere Website ist nutzerfreundlicher und ermöglicht gleichzeitig eine höhere Crawling-Frequenz. Für den Googlebot ist eine schnelle Website ein Zeichen für gut funktionierende Server. So kann er mehr Inhalte über die gleiche Anzahl von Verbindungen abrufen. Auf der anderen Seite deuten zahlreiche 5xx-Fehler oder Zeitüberschreitungen beim Verbindungsaufbau auf das Gegenteil hin und das Crawling verlangsamt sich.
Wir empfehlen, den Bericht „Crawling-Fehler“ in der Search Console zu beachten und die Anzahl der Serverfehler möglichst gering zu halten.
Spielt das Crawling eine Rolle für das Ranking?
Eine höhere Crawling-Frequenz führt nicht zwangsläufig zu besseren Positionen in den Suchergebnissen. Google nutzt Hunderte Signale für das Ranking der Ergebnisse. Das Crawling ist zwar notwendig, um in den Ergebnissen zu erscheinen, aber kein Ranking-Signal.
Werden alternative URLs und eingebettete Inhalte in das Crawling-Budget eingerechnet?
Im Allgemeinen wird für jede URL, die der Googlebot crawlt, ein Teil des Crawling-Budgets der Website in Anspruch genommen. Alternative URLs, wie URLs von AMP-Seiten oder hreflang-Versionen, sowie eingebettete Inhalte wie CSS und JavaScript, einschließlich AJAX-Aufrufen (wie XHR-Aufrufen), müssen gecrawlt werden und verbrauchen einen Teil des Crawling-Budgets einer Website. Ebenso können sich lange Weiterleitungsketten negativ auf das Crawling auswirken.
Kann ich den Googlebot mit der Regel crawl-delay
steuern?
Die nicht zum Standard gehörende crawl-delay
-Regel in der robots.txt-Datei wird vom Googlebot nicht verarbeitet.
Wirkt sich die Regel nofollow
auf das Crawling-Budget aus?
Das ist unterschiedlich. Jede gecrawlte URL wirkt sich auf das Crawling-Budget aus. Selbst wenn eine URL im Code eurer Seite mit nofollow
gekennzeichnet ist, kann sie gecrawlt werden, falls eine andere Seite eurer Website – oder eine beliebige Seite im Web – die URL nicht mit „nofollow“ gekennzeichnet hat.
Wirken sich URLs, die ich in der robots.txt-Datei als nicht zulässig festgelegt habe, auf das Crawling-Budget aus?
Nein, nicht zugelassene URLs wirken sich nicht auf das Crawling-Budget aus.
Informationen zum Optimieren des Crawlings eurer Website findet ihr in unserem Blogpost zur Crawling-Optimierung aus dem Jahr 2009, der immer noch aktuell ist. Eure Fragen könnt ihr in den Foren stellen.