Dienstag, 3. Dezember 2024
Ihr habt vielleicht schon gehört, dass die Google Suche einige Arbeit erledigen muss, bevor eine Webseite in den Google-Suchergebnissen erscheinen kann. Einer dieser Schritte wird als Crawling bezeichnet. Das Crawling für die Google Suche wird vom Googlebot durchgeführt, einem Programm, das auf Google-Servern ausgeführt wird. Es ruft eine URL ab und verarbeitet Netzwerkfehler, Weiterleitungen und andere kleine Komplikationen, die beim Durchsuchen des Webs auftreten können. Es gibt aber einige Details, über die nicht oft gesprochen wird. Jede Woche dieses Monats werden wir einige dieser Details untersuchen, da sie sich erheblich auf die Art und Weise auswirken können, wie eure Websites gecrawlt werden.
Zuerst noch etwas zurück: Was ist Crawling?
Beim Crawling werden neue Webseiten gefunden, aktualisierte Webseiten noch einmal besucht und die Webseiten heruntergeladen. Kurz gesagt: Der Googlebot ruft eine URL ab, sendet eine HTTP-Anfrage an den Server, auf dem sie gehostet wird, und verarbeitet dann die Antwort dieses Servers. Dabei folgt er gegebenenfalls Weiterleitungen, verarbeitet Fehler und gibt die Seiteninhalte an das Indexierungssystem von Google weiter.
Moderne Webseiten bestehen jedoch nicht nur aus reinem HTML. Was ist also mit den anderen Ressourcen, aus denen eine Seite besteht? Wie wirkt sich das Crawling dieser Ressourcen auf das Crawling-Budget aus? Können diese Ressourcen von Google im Cache gespeichert werden? Gibt es einen Unterschied zwischen URLs, die noch nicht gecrawlt wurden, und solchen, die bereits indexiert sind? In diesem Beitrag beantworten wir diese und weitere Fragen.
Googlebot und Crawling von Seitenressourcen
Neben HTML verwenden moderne Websites eine Kombination verschiedener Technologien wie JavaScript und CSS, um Nutzern eine ansprechende Benutzeroberfläche und nützliche Funktionen zu bieten. Wenn ein Nutzer mit einem Browser auf solche Seiten zugreift, lädt der Browser zuerst die übergeordnete URL herunter, auf der die Daten gehostet werden, die zum Erstellen der Seite für den Nutzer erforderlich sind – also den HTML-Code der Seite. Diese anfänglichen Daten können Verweise auf Ressourcen wie JavaScript und CSS, aber auch Bilder und Videos enthalten, die der Browser wiederum herunterlädt, um die endgültige Seite zu erstellen, die dem Nutzer dann angezeigt wird.
Google macht dasselbe, allerdings etwas anders:
- Der Googlebot lädt die ursprünglichen Daten von der übergeordneten URL herunter, also den HTML-Code der Seite.
- Der Googlebot gibt die abgerufenen Daten an den Web-Renderingdienst (Web Rendering Service, WRS) weiter.
- Der WRS lädt mit dem Googlebot die Ressourcen herunter, auf die in den ursprünglichen Daten verwiesen wird.
- Der WRS erstellt die Seite mit allen heruntergeladenen Ressourcen, so wie es der Browser eines Nutzers tun würde.
Im Vergleich zu einem Browser kann die Zeit zwischen den einzelnen Schritten aufgrund von Planungseinschränkungen wie der wahrgenommenen Auslastung des Servers, auf dem die für das Rendern einer Seite erforderlichen Ressourcen gehostet werden, erheblich länger sein. Und hier kommt das Crawling-Budget ins Spiel.
Wenn die Ressourcen gecrawlt werden, die zum Rendern einer Seite erforderlich sind, wird das Crawling-Budget des Hostnamens, auf dem die Ressource gehostet wird, verringert. Um dies zu berücksichtigen, versucht der WRS, jede Ressource (JavaScript und CSS) im Cache zu speichern, auf die auf den gerenderten Seiten verwiesen wird. Die Gültigkeitsdauer (TTL) des WRS-Caches wird nicht von HTTP-Caching-Richtlinien beeinflusst. Stattdessen werden alle Daten im WRS bis zu 30 Tage lang im Cache gespeichert. So kann das Crawling-Budget der Website für andere Crawling-Aufgaben verwendet werden.
Aus Sicht der Websiteinhaber kann die Festlegung, wie und welche Ressourcen gecrawlt werden, das Crawling-Budget der Website beeinflussen. Wir empfehlen Folgendes:
- Verwendet so wenige Ressourcen wie möglich, um Nutzern eine gute Nutzererfahrung zu bieten. Je weniger Ressourcen für das Rendern einer Seite benötigt werden, desto weniger Crawling-Budget wird während des Renderings verbraucht.
- Verwendet Cache-Busting-Parameter mit Vorsicht: Wenn sich die URLs von Ressourcen ändern, muss Google die Ressourcen möglicherweise noch einmal crawlen, auch wenn sich ihr Inhalt nicht geändert hat. Das nimmt natürlich das Crawling-Budget in Anspruch.
- Hostet Ressourcen unter einem anderen Hostnamen als dem der Hauptwebsite, z. B. mit einem CDN oder indem ihr die Ressourcen einfach auf einer anderen Subdomain hostet. Dadurch werden etwaige Probleme mit dem Crawling-Budget auf den Host übertragen, der die Ressourcen bereitstellt.
Alle diese Punkte gelten auch für Medienressourcen. Wenn der Googlebot (bzw. genauer gesagt Googlebot-Image
und Googlebot-Video
) sie abruft, wird das Crawling-Budget der Website in Anspruch genommen.
Es ist verlockend, auch robots.txt zur Liste hinzuzufügen. Aus Sicht des Renderings führt das Blockieren des Crawlings von Ressourcen jedoch in der Regel zu Problemen. Wenn der WRS eine für das Rendering wichtige Ressource nicht abrufen kann, kann es in der Google Suche zu Problemen beim Extrahieren des Seiteninhalts und beim Ranking der Seite kommen.
Was wird vom Googlebot gecrawlt?
Die beste Quelle, um zu analysieren, welche Ressourcen von Google gecrawlt werden, sind die Rohzugriffsprotokolle der Website. Sie enthalten einen Eintrag für jede URL, die sowohl von Browsern als auch von Crawlern angefordert wurde. Damit die Crawler von Google im Zugriffsprotokoll identifiziert werden können, veröffentlichen wir unsere IP-Bereiche in unserer Entwicklerdokumentation.
Die zweitbeste Ressource ist natürlich der Bericht „Crawling-Statistik“ in der Search Console, in dem jede Art von Ressource nach Crawler aufgeschlüsselt wird:

Wenn ihr euch für Crawling und Rendering interessiert und darüber mit anderen sprechen möchtet, ist die Search Central-Community die richtige Anlaufstelle. Ihr findet uns aber auch auf LinkedIn.
Updates
- Update vom 6. Dezember 2024: Es wurde auf eine Leistungsbeeinträchtigung durch das Bereitstellen von Ressourcen aus einer anderen Quelle hingewiesen.
Möchten Sie mehr über das Crawling erfahren? Hier finden Sie die gesamte Crawling-Dezember-Reihe:
Fragen und Antworten zu Updates für die Google Suche
Donnerstag, 2. November 2023 Die Systeme des Suchrankings in der Google Suche werden regelmäßig aktualisiert, damit wir euch möglichst relevante und hilfreiche Inhalte zeigen können. In den letzten Wochen haben wir eine Reihe von wichtigen Updates
So geht die Google Suche mit mehrsprachigen Suchanfragen um
Freitag, 8. September 2023 In vielen Ländern und Regionen auf der ganzen Welt sprechen und suchen die Menschen üblicherweise in mehr als einer Sprache. Um Nutzer bestmöglich zu unterstützen, setzt Google verschiedene Methoden ein, um automatisch die
Die Rolle der Nutzerfreundlichkeit von Seiten bei der Erstellung hilfreicher Inhalte
Mittwoch, 19. April 2023 Hilfreiche Inhalte bieten im Allgemeinen eine gute Nutzerfreundlichkeit von Seiten. Deshalb haben wir unsere Anleitung zum Erstellen hilfreicher Inhalte um einen Abschnitt zur Nutzerfreundlichkeit von Seiten ergänzt. Außerdem
Leitfaden der Google Suche zu KI-generierten Inhalten
In diesem Beitrag erfahrt ihr mehr darüber, wie KI-generierte Inhalte in unseren traditionsreichen Ansatz einfließen, um Nutzern in der Google Suche hilfreiche Inhalte zu präsentieren.
Unser neuer Leitfaden zu Ranking-Systemen der Google Suche
Montag, 21. November 2022 Im Laufe der Jahre haben wir in Blogposts und anderen öffentlichen Mitteilungen regelmäßig Informationen zu unseren automatisierten Ranking-Systemen und zu ihrer Funktionsweise veröffentlicht. Wir haben jetzt eine zentrale
Grundlegende Updates im Mai 2022 für die Google Suche
Mittwoch, 25. Mai 2022 Wir führen mehrmals im Jahr wesentliche Verbesserungen am Rankingprozess durch, die wir als grundlegende Updates bezeichnen. Die grundlegenden Updates sollen die Relevanz unserer Suchergebnisse insgesamt erhöhen und sie für
Weitere Informationen dazu, wie Google Titel für Webseiten generiert
Freitag, 17. September 2021 Letzten Monat haben wir euch über unser neues System zum Generieren von Titeln für Webseiten informiert. Dank eures Feedbacks, das wir sehr schätzen, konnten wir unser System zum Erstellen von Titeln weiter verbessern.
Update zur Generierung von Titeln für Webseiten
Dienstag, 24. August 2021 Eins der wichtigsten Kriterien, nach denen Nutzer entscheiden, welche Suchergebnisse für ihre Suchanfrage relevant sein könnten, sind die Titel der aufgelisteten Webseiten. Daher ist es uns wichtig, für Dokumente in unseren
Antworten auf einige häufig gestellte Fragen zur Präsenz in Google News
Freitag, 16. Juli 2021 Wir bei Google möchten dazu beitragen, dass alle Menschen die Welt besser verstehen. Dazu versorgen wir sie mit relevanten und verlässlichen Nachrichten von verschiedenen vertrauenswürdigen Verlagen und Webpublishern. Heute
Kundensupportmethoden in der Google Suche hervorheben
Mittwoch, 7. Juli 2021 Potenzielle Kunden suchen oft nach Möglichkeiten, ein Unternehmen zu kontaktieren. Google arbeitet daran, die besten verfügbaren Informationen zu zeigen, um ihnen auf verschiedene Arten dabei zu helfen. Wir empfehlen euch,
Was Creator über das Rezensionsupdate im April 2021 wissen sollten
Donnerstag, 8. April 2021 Wir arbeiten fortlaufend daran, über die Google Suche nützliche Informationen zu liefern. Dazu führen wir Tests und Prüfverfahren durch. Wir wissen daher, dass Nutzer ausführlich recherchierte Rezensionen gegenüber Inhalten
Wie ihr für eure Websites Mitteilungen zu COVID-19 in der Google Suche hervorhebt
Freitag, 3. April 2020 Im Zusammenhang mit dem COVID-19-Ausbruch veröffentlichen viele Organisationen und Gruppen wichtige Informationen zur aktuellen Situation, die uns alle betreffen. Um sicherzugehen, dass diese Informationen die nötige
Weiterentwicklung von „nofollow“: Neue Möglichkeiten, die Art von Links zu ermitteln
Dienstag, 10. September 2019 Vor etwa 15 Jahren wurde der Attributwert nofollow eingeführt, um gegen Spamkommentare vorzugehen. Er wurde auch schnell zu einer der empfohlenen Methoden von Google, um werbebezogene Links oder Anzeigen zu melden. Seit
Tipps für Websiteinhaber zum grundlegenden Google-Update vom August 2019
Donnerstag, 1. August 2019 Google nimmt normalerweise täglich mindestens eine Änderung mit dem Ziel vor, die Suchergebnisse zu verbessern. Die meisten Aktualisierungen fallen gar nicht unmittelbar auf, sie tragen aber zu einer schrittweisen
Google News optimal nutzen
Donnerstag, 17. Januar 2019 Zum Jahresbeginn möchten wir Verlage und Webpublisher auf Best Practices und Empfehlungen hinweisen, mit denen sie Google News im Jahr 2019 optimal nutzen können. In der Google News-Hilfe für Verlage und Webpublisher