Donnerstag, 17. September 2020
Ab November 2020 crawlt der Googlebot einige Websites über HTTP/2.
Seitdem die große HTTP-Überarbeitung HTTP/2 (kurz: h2) durch gängige Browser unterstützt wird, werden wir immer wieder von Webspezialisten gefragt, ob der Googlebot Inhalte auch über die aktualisierte, modernere Version des Protokolls crawlen kann.
Wir möchten euch heute mitteilen, dass der Googlebot ab Mitte November 2020 das Crawlen über HTTP/2 für ausgewählte Websites unterstützt.
Was ist HTTP/2?
Wie bereits erwähnt, handelt es sich hierbei um die neue Hauptversion von HTTP, dem Protokoll, das im Internet hauptsächlich für die Datenübertragung verwendet wird. HTTP/2 ist aufgrund seiner Architektur und der implementierten Funktionen für Clients (z. B. Browser) und Server wesentlich zuverlässiger, effizienter und schneller als sein Vorgänger. Wenn ihr mehr dazu erfahren möchtet, findet ihr hier einen ausführlichen Artikel zu HTTP/2.
Warum wir diese Änderung vornehmen
Wir gehen davon aus, dass dadurch das Crawlen in puncto Nutzung von Serverressourcen im Großen und Ganzen effizienter wird. Mit h2 kann der Googlebot eine einzelne TCP-Verbindung zum Server öffnen und mehrere Dateien parallel darüber übertragen, ohne dass mehrere Verbindungen erforderlich sind. Je weniger Verbindungen offen sind, desto weniger Ressourcen benötigen der Server und der Googlebot für das Crawlen.
Funktionsweise
In der ersten Phase crawlen wir eine kleine Anzahl von Websites über h2 und nehmen uns dann schrittweise weitere Websites vor, die von den ursprünglich unterstützten Funktionen wie dem Multiplexing von Anfragen profitieren könnten.
Der Googlebot entscheidet, welche Website über h2 gecrawlt wird. Dies hängt davon ab, ob die Website h2 unterstützt und ob sie und der Googlebot vom HTTP/2-Crawling profitieren. Wenn euer Server h2 unterstützt und der Googlebot bereits viele Inhalte von eurer Website crawlt, seid ihr möglicherweise schon für das Verbindungsupgrade berechtigt und müsst nichts weiter tun.
Wenn euer Server weiterhin nur über HTTP/1.1 kommuniziert, ist das auch kein Problem. Das Crawlen über dieses Protokoll bringt keine expliziten Nachteile mit sich. Auch Qualität und Quantität sind nicht davon betroffen.
Crawlen über HTTP/2 verhindern
Unsere vorläufigen Tests ergaben keine Probleme oder negativen Auswirkungen auf die Indexierung. Es kann jedoch sein, dass ihr aus verschiedenen Gründen verhindern möchtet, dass eure Website über HTTP/2 gecrawlt wird. Dazu weist ihr den Server an, mit einem HTTP-Statuscode 421 zu antworten, wenn der Googlebot versucht, eure Website über h2 zu crawlen. Falls dies derzeit nicht möglich ist, könnt ihr eine Nachricht an das Googlebot-Team senden. Das ist aber nur eine vorübergehende Lösung.
Wenn ihr weitere Fragen zum Googlebot und HTTP/2 habt, findet ihr hier eine Zusammenstellung möglicher Fragen. Ist die Antwort auf eure Frage nicht enthalten, könnt ihr uns über Twitter und in den Hilfeforen kontaktieren.
Mögliche Fragen
Warum wird der Googlebot jetzt aktualisiert?
Die Software, die das Crawlen über h2 ermöglicht, ist so ausgereift, dass sie auch in der Produktionsumgebung eingesetzt werden kann.
Muss ich meinen Server so schnell wie möglich aktualisieren?
Das liegt ganz bei euch. Wir crawlen jedoch nur Websites über h2, wenn dies unterstützt wird und eindeutige Vorteile bringt. Ergibt sich aber durch das Crawlen über h2 kein klarer Vorteil, crawlt der Googlebot weiterhin über h1.
Wie kann ich testen, ob meine Website h2 unterstützt?
In einem Blogpost bei Cloudflare werden mehrere Methoden erläutert, mit denen ihr testen könnt, ob eine Website h2 unterstützt.
Wie führe ich ein Upgrade meiner Website auf h2 durch?
Das hängt von eurem Server ab. Am besten wendet ihr euch an euren Serveradministrator oder Hostanbieter.
Wie kann ich den Googlebot davon überzeugen, mit meiner Website über h2 zu kommunizieren?
Das ist nicht möglich. Wenn die Website h2 unterstützt, kann sie zwar über h2 gecrawlt werden, allerdings nur dann, wenn dies für die Website und den Googlebot vorteilhaft wäre. Wenn beispielsweise das Crawlen über h2 keine nennenswerten Ressourceneinsparungen mit sich bringt, wird die Website weiterhin über HTTP/1.1 gecrawlt.
Warum wird nicht jede h2-fähige Website über h2 gecrawlt?
In unseren Auswertungen haben wir für bestimmte Websites, z. B. Websites mit einer sehr niedrigen Anzahl von Abfragen pro Sekunde, nur geringe bis gar keine Vorteile festgestellt, wenn sie über h2 gecrawlt wurden. Daher haben wir beschlossen, das Crawling nur dann auf h2 umzustellen, wenn dies für die Website eindeutig von Vorteil ist. Wir werden die Leistungssteigerungen weiterhin analysieren und unsere Kriterien für den Wechsel zu h2 möglicherweise künftig ändern.
Woher weiß ich, ob meine Website über h2 gecrawlt wird?
Wenn eine Website für das Crawlen über h2 infrage kommt, erhalten die Inhaber dieser in der Search Console registrierten Website eine Nachricht, dass ein Teil des Crawling-Traffics möglicherweise ab jetzt über h2 erfolgt. Ihr könnt auch in euren Serverprotokollen nachsehen, beispielsweise in der Datei „access.log“, wenn eure Website unter Apache ausgeführt wird.
Welche h2-Funktionen werden vom Googlebot unterstützt?
Der Googlebot unterstützt die meisten der neuen h2-Funktionen. Einige Funktionen wie Server-Push, die für das Rendering nützlich sein können, werden derzeit noch geprüft.
Unterstützt der Googlebot Nur-Text-HTTP/2 (h2c)?
Nein. Damit eure Website über HTTP/2 gecrawlt werden kann, muss sie HTTPS verwenden und HTTP/2 unterstützen. Das entspricht der Vorgehensweise moderner Browser.
Entscheidet der Googlebot anhand der ALPN-Erweiterung, welche Protokollversion für das Crawling verwendet wird?
ALPN (Application-Layer Protocol Negotiation) wird nur für Websites verwendet, die dem Crawling über h2 zugestimmt haben. Das einzig akzeptierte Protokoll für Antworten ist h2. Wenn der Server während des TLS-Handshakes mit einer anderen Protokollversion als h2 antwortet, bricht der Googlebot ab und versucht später das Crawlen über HTTP/1.1.
Inwiefern unterstützen die verschiedenen h2-Funktionen das Crawling?
Zu den Hauptvorteilen von h2 gehören:
- Multiplexing und Nebenläufigkeit: Weniger offene TCP-Verbindungen bedeuten einen geringeren Ressourcenverbrauch.
- Header-Komprimierung: Durch drastisch reduzierte HTTP-Header-Größen werden Ressourcen eingespart.
- Server-Push: Diese Funktion ist noch nicht aktiviert, da sie aktuell noch ausgewertet wird. Sie kann für das Rendering vorteilhaft sein, aber momentan liegen uns noch keine genaueren Ergebnisse dazu vor.
Wenn ihr mehr über bestimmte h2-Funktionen und deren Auswirkung auf das Crawlen erfahren möchtet, könnt ihr uns über Twitter kontaktieren.
Crawlt der Googlebot über h2 mehr oder schneller?
Der Hauptvorteil von h2 sind Ressourceneinsparungen sowohl auf Server- als auch auf Googlebot-Seite. Ob wir eure Website mit h1 oder h2 crawlen, hat keinen Einfluss auf die Indexierung eurer Website. Es hat auch keinen Einfluss darauf, wie viele Seiten wir von eurer Website crawlen werden.
Hat das Crawlen einer Website über h2 irgendwelche Vorteile in puncto Ranking?
Nein.