Dienstag, 20. Dezember 2011
Einige Webmaster haben in unseren Foren Fragen zu hosting-bezogenen Problemen gestellt, die ihre Websites betreffen. Wir möchten euch einige Probleme und unsere Vorschläge zur Behebung darlegen, um sowohl Hostanbieter als auch Webmaster bei der Erkennung, Diagnose und Behebung dieser Probleme zu unterstützen.
Blockieren von Googlebot-Crawling. Dies ist ein häufig auftretendes Problem, das in der Regel durch eine falsche Konfiguration in einer Firewall oder einem DoS-Schutzsystem und teilweise auch durch das Contentmanagement System entsteht, das die Website benutzt. Schutzsysteme sind ein wichtiger Teil von gutem Hosting und werden häufig konfiguriert, um ein ungewöhnlich hohes Aufkommen an Serveranfragen zu blockieren. Dies erfolgt teilweise automatisch. Da der Googlebot häufig mehr Anfragen durchführt als ein menschlicher Nutzer, können diese Schutzsysteme den Googlebot blockieren und ein Crawling eurer Website verhindern. Verwendet bei diesem Problem die Funktion " Abruf wie durch Googlebot " in den Webmaster-Tools und sucht nach weiteren in den Webmaster-Tools angezeigten Crawling-Fehlern .
Wir stellen Webmastern und Hostanbietern, die Googlebot-Crawling besser kontrollieren möchten, verschiedene Tools zur Verfügung, die außerdem die Crawling-Effizienz verbessern:
- Wir bieten detaillierte Hilfe zur Kontrolle des Googlebot-Crawling mithilfe des Robots-Exclusion-Protokolls und durch die Konfiguration von URL-Parametern .
- Wenn ihr Bedenken habt, dass ein Rogue Bot den Googlebot-User-Agent verwendet, bieten wir eine Möglichkeit, um zu verifizieren, ob ein Crawler tatsächlich ein Googlebot ist .
- Wenn ihr die Frequenz des Googlebot-Crawlings auf eurer Website ändern möchtet, könnt ihr eure Website in den Webmaster-Tools verifizieren und die Crawling-Frequenz des Googlebot ändern. Hostanbieter können außerdem die Inhaberschaft ihrer IP-Adressen verifizieren.
Weitere Informationen dazu findet ihr in unseren häufig gestellten Fragen zu Crawling und Indexierung .
Verfügbarkeitsprobleme. Ein ähnliches Problem ist die Nichtverfügbarkeit von Websites, wenn der Googlebot (und Nutzer) versuchen, auf die Website zuzugreifen. Dazu gehören DNS-Probleme, überlastete Server, die zu Zeitüberschreitungen und abgelehnten Verbindungsversuchen führen, falsch konfigurierte Content Distribution Networks (CDNs) sowie zahlreiche andere Fehler. Wenn der Googlebot auf derartige Probleme stößt, melden wir diese in den Webmaster-Tools als Fehler durch nicht erreichbare URL oder Crawling-Fehler .
Ungültige SSL-Zertifikate. Damit SSL-Zertifikate für eure Website gültig sind, müssen sie mit dem Namen der Website übereinstimmen. Zu den am häufigsten auftretenden Problemen gehören abgelaufene SSL-Zertifikate und falsch konfigurierte Server, bei denen alle Websites auf diesem Server das gleiche Zertifikat verwenden. Die meisten Webbrowser versuchen, die Nutzer in diesem Fall zu warnen, und Google versucht, die Webmaster durch das Versenden einer Nachricht über die Webmaster-Tools auf dieses Problem hinzuweisen. Das Problem kann behoben werden, indem ihr sicherstellt, dass SSL-Zertifikate verwendet werden, die für alle Domains und Sub-Domains eurer Website gültig sind, mit denen der Nutzer interagiert.
Wildcard-DNS. Websites können so konfiguriert werden, dass sie auf alle Anfragen der Sub-Domains reagieren. Beispielsweise kann die Website unter example.com so konfiguriert werden, dass sie auf Anfragen von foo.example.com, made-up-name.example.com und sämtliche anderen Sub-Domains reagiert.
Dies kann in einigen Fällen erwünscht sein, zum Beispiel wenn auf einer nutzergenerierten Content-Website für jedes Konto eine eigene Sub-Domain eingerichtet wird. In anderen Fällen möchte der Webmaster dieses Verhalten jedoch vermeiden, da es dazu führen kann, dass Content unnötigerweise in verschiedenen Hostnamen dupliziert wird. Außerdem kann das Googlebot-Crawling beeinflusst werden.
Zur Minimierung der Probleme in Wildcard-DNS-Einrichtungen könnt ihr eure Website entweder so konfigurieren, dass sie nicht verwendet werden, oder ihr konfiguriert euren Server so, dass er nicht auf nicht vorhandene Hostnamen antwortet. Dazu kann er entweder den Verbindungsversuch ablehnen oder eine HTTP 404-Fehlermeldung zurückgeben.
Falsch konfiguriertes virtuelles Hosting. Bei diesem Problem geben mehrere Hosts und/oder Domain-Namen, die auf dem gleichen Server gehostet werden, stets die Inhalte von nur einer Website zurück. Mit anderen Worten gibt der Server, obwohl er mehrere Websites hostet, immer nur eine Website zurück, unabhängig von der Anfrage. Zur Diagnose des Problems müsst ihr überprüfen, ob der Server richtig auf den HTTP-Header des Hosts reagiert.
Duplizierung von Content über hosting-spezifische URLs. Viele Hosts bieten zu Test-/Entwicklungszwecken URLs für eure Website an. Wenn ihr beispielsweise die Website https://a.com/ auf dem Hostanbieter example.com hostet, bietet der Host möglicherweise über eine URL wie https://a.example.com/ oder https://example.com/~a/ Zugriff auf eure Website. Wir empfehlen euch, diese hosting-spezifischen URLs durch ein Passwort zu schützen und so den öffentlichen Zugriff zu verhindern. Selbst wenn diese URLs zugänglich sind, berücksichtigen unsere Algorithmen in der Regel die Absicht des URL-Webmasters. Falls unsere Algorithmen die hosting-spezifischen URLs auswählen , könnt ihr diese durch die korrekte Implementierung von Autorisierungstechniken so beeinflussen, dass sie die bevorzugten URLs auswählen.
Soft Error-Seiten. Einige Hostanbieter zeigen Fehlerseiten unter Verwendung eines HTTP 200-Statuscode (also "Erfolg") anstelle eines HTTP-Fehlerstatuscode an. Beispielsweise könnte die Fehlerseite "Seite nicht gefunden" eine HTTP 200-Fehlermeldung anstelle von 404 zurückgeben, wodurch sie eine Soft 404-Seite wird, oder die Meldung "Dienst nicht verfügbar" kann eine 200-Fehlermeldung statt des korrekten 503 HTTP-Statuscodes zurückgeben. Wir setzen alles daran, Soft Error-Seiten zu erkennen, wenn unsere Algorithmen jedoch die Soft Error-Seiten eines Webhosts nicht erkennen, werden diese Seiten möglicherweise mit Fehler-Content indiziert. Dies kann zu Problemen beim Ranking oder der domainübergreifenden Auswahl von URLs führen.
Der zurückgegebene Statuscode lässt sich leicht überprüfen: Überprüft einfach die vom Server zurückgegebenen HTTP-Header mithilfe eines beliebigen Tools wie " Abruf wie durch Googlebot ". Wenn eine Fehlerseite die Meldung HTTP 200 zurückgibt, ändert die Konfiguration so, dass der korrekte HTTP-Fehlerstatuscode zurückgegeben wird. Achtet außerdem auf Soft 404-Berichte in den Webmaster-Tools auf den Crawling-Fehlerseiten im Diagnosebereich.
Content-Änderung und Frames. Webmaster stellen teilweise mit Erstaunen fest, dass ihre Seiteninhalte durch Hostanbieter geändert wurden, und zwar in der Regel durch Einfügen von Skripts oder Bildern auf der Seite. Webhosts können eure Inhalte auch anbieten, indem sie ihn über Frames oder iFrames in andere Seiten einbetten. Wenn ihr überprüfen möchtet, ob ein Webhost euren Inhalt unerwartet ändert, überprüft einfach den Quellcode der Seite, wie er vom Host wiedergegeben wird, und vergleicht ihn mit dem Code, den ihr hochgeladen habt.
Bedenkt, dass einige serverseitige Codeänderungen sehr nützlich sein können. Beispielsweise kann ein Server, der das mod_pagespeed Apache-Modul von Google oder andere Tools verwendet, euren Code in minimierter Form zurückgeben, um den Page Speed zu optimieren.
Spam und Malware. Wir haben festgestellt, dass einige Webhosts und Bulk-Sub-Domain-Dienste häufige Quellen von Malware und Spam geworden sind. Wir versuchen, beim Schutz unserer Nutzer und bei der Suchqualität stets sehr gezielt vorzugehen, wenn wir jedoch feststellen, dass ein großer Teil der Websites auf einem bestimmten Webhost Spam oder Malware verbreitet, sehen wir uns unter Umständen gezwungen, Maßnahmen für den gesamten Webhost zu ergreifen. Damit ihr in Bezug auf Malware immer auf dem neuesten Stand bleibt, bieten wir:
- Safe Browsing-Alerts für Netzwerkadministratoren , die für Hostanbieter nützlich sind
- Malware-Benachrichtigungen in den Webmaster-Tools für individuelle Websites
- Eine Safe Browsing-API für Entwickler
Wir hoffen, dass diese Liste sowohl Hostanbietern als auch Webmastern bei der Diagnose und Behebung dieser Probleme hilft. Beachtet im Übrigen auch die qualitativen Aspekte von Hosting, wie die Qualität des Dienstes und den hilfreichen Support. Wenn ihr weitere Fragen habt, könnt ihr diese wie gewohnt in unserem Webmaster-Hilfeforum stellen.
Von Pierre Far , Webmaster Trends Analyst (Veröffentlicht von Dominik Zins , Search Quality)