Crawling-Fehler: Die nächste Generation

Montag, 12. März 2012

„Crawling-Fehler“ ist eine der beliebtesten Funktionen in der Search Console. Heute zeigen wir euch einige maßgebliche Verbesserungen, mit der die Funktion noch nützlicher geworden ist.

Es werden nun viele neue Fehlertypen erkannt und gemeldet. Um diese neuen Informationen übersichtlich zu gestalten, haben wir sie in zwei Kategorien aufgeteilt: Website-Fehler und URL-Fehler.

Website-Fehler

Website-Fehler sind Probleme, die nicht nur eine bestimmte URL betreffen, sondern die ganze Website. Dazu gehören Fehler bei der DNS-Auflösung, Verbindungsprobleme mit dem Webserver und Schwierigkeiten beim Abrufen der „robots.txt“-Datei. Diese Fehler wurden bisher nach URL aufgelistet. Das ist jedoch nicht sinnvoll, da die Probleme nicht URL-spezifisch sind und der Googlebot sogar vom Anfordern der URLs abgehalten wird. Nun halten wir stattdessen die Häufigkeit der einzelnen Website-Fehlertypen fest. Es sollen auch Warnungen ausgegeben werden, wenn diese Fehler so häufig vorkommen, dass eure Aufmerksamkeit gefragt ist.

Search Console-Ansicht mit der Rate und Anzahl von Fehlern auf einer Website im Zeitverlauf

Solltet ihr in diesem Bereich keine Probleme haben oder in letzter Zeit gehabt haben – und dies ist bei den meisten Websites der Fall – steht der entsprechende Abschnitt nicht im Vordergrund. Daher werden hier auch nur ein paar grüne Häkchen angezeigt, damit ihr wisst, dass alles wie geschmiert läuft.

Ansicht für Website-Fehler in der Search Console, ohne Fehler

URL-Fehler

URL-Fehler sind Fehler, die spezifisch für eine bestimmte Seite sind. Das heißt, dass beim Versuch des Googlebots, die URL zu crawlen, das DNS aufgelöst, eine Verbindung mit dem Server hergestellt und die „robot.txt“-Datei abgerufen und gelesen wird. Anschließend wird die URL angefordert, doch in diesem Moment scheint etwas schiefzugehen. Die URL-Fehler werden je nach Ursache des Fehlers in verschiedene Kategorien unterteilt. Sollte eure Website Daten für Google News oder für Mobilgeräte (CHTML/XHTML) anbieten, zeigen wir Fehler dementsprechend in separaten Kategorien an.

Ansicht für URL-Fehler in der Search Console, kategorisiert nach Typ mit der vollständigen aktuellen Anzahl und der Anzahl im Zeitverlauf

Weniger ist mehr

Wir haben euch bisher bis zu 100.000 Fehler pro Fehlertyp angezeigt. Das Kanalisieren all dieser Informationen kann man mit dem Trinken aus einem Feuerwehrschlauch vergleichen. Ihr hattet keine Möglichkeit herauszufinden, welche dieser Fehler kritisch (Startseite ist ausgefallen) oder nicht so wichtig waren (auf einer privaten Website wird der Link zu eurer Website falsch geschrieben). Es war unmöglich, alle 100.000 Fehler anzusehen, und ihr konntet sie auch nicht sortieren, durchsuchen oder markieren. In der neuen Version dieser Funktion möchten wir euch nun die wichtigsten Fehler zuerst zeigen. In jeder Kategorie seht ihr die 1.000 nach unserer Meinung wichtigsten Fehler, die eure Aufmerksamkeit benötigen. Ihr könnt diese 1.000 wichtigsten Fehler sortieren und filtern, behobene Fehler markieren und Details zu den einzelnen Fehlern anzeigen.

Sortierfunktion in der Ansicht für Crawling-Fehler in der Search Console

Einige Websites weisen jedoch mehr als 1.000 Fehler in einer bestimmten Kategorie auf. Ihr könnt euch in diesem Fall natürlich die Gesamtanzahl aller einzelnen Fehlertypen ansehen. Außerdem wird in einem Diagramm der Verlauf der letzten 90 Tage angezeigt. Für diejenigen, die befürchten, dass Details zu den wichtigsten 1.000 Fehlern und die Gesamtanzahl der Fehler nicht ausreichen, möchten wir einen programmatischen Zugriff über ein API ermöglichen. Damit könnt ihr dann sämtliche Fehler herunterladen. Lasst uns wissen, ob euch dies sinnvoll erscheint.

Wir haben außerdem die Liste der Seiten entfernt, die durch eine „robots.txt“-Datei blockiert werden. Diese Informationen können zwar in manchen Fällen bei der Diagnose eines Problems mit robots.txt hilfreich sein, doch meistens habt ihr diese Seiten ja absichtlich blockiert. Wir wollten uns erst einmal ganz auf das Thema Fehler konzentrieren. Weitere Informationen zur Blockierung durch eine „robots.txt“-Datei findet ihr also bald in der Funktion „Crawler-Zugriff“ unter „Website-Konfiguration“.

Mehr Details bitte

Wenn ihr auf eine Fehler-URL in der Liste klickt, wird ein Detailfenster mit weiteren Informationen geöffnet. Dort erfahrt ihr zum Beispiel, wann zum letzten Mal versucht wurde, die URL zu crawlen, und wann wir das Problem zum ersten Mal entdeckt haben. Es wird auch eine kurze Beschreibung des Fehlers angegeben.

Detailansicht eines Fehlers auf URL-Ebene

Im Detailfenster wird der Link der URL angezeigt, die für den Fehler verantwortlich ist. Wenn ihr ausprobieren wollt, was beim Aufrufen der URL passiert, klickt einfach auf den Link. Ihr könnt den Fehler auch als „Behoben“ markieren (dazu später mehr), Hilfeinhalte für den Fehlertyp aufrufen, Sitemaps mit der URL auflisten oder andere Seiten aufrufen, die auf diese URL verweisen. Bittet den Googlebot, die URL jetzt abzurufen, um entweder weitere Informationen zu erhalten oder zu prüfen, ob die Lösung funktioniert.

Fenster in der Ansicht für Crawling-Fehler in der Search Console, in dem angezeigt wird, welche Seiten auf eine Seite mit Fehler verlinken

Nun seid ihr an der Reihe!

Eine der spannendsten Funktionen dieser neuen Version der „Crawling-Fehler“ ist, dass ihr euch voll und ganz darauf konzentrieren könnt, die wichtigsten Fehler zuerst zu beheben. Denn wir haben die Fehler jetzt in eine Reihenfolge gebracht: An oberster Position stehen die, gegen die ihr selbst etwas tun könnt, zum Beispiel durch die Korrektur fehlerhafter Links, die Behebung von Programmfehlern in eurer Serversoftware, die Entfernung toter Links aus euren Sitemaps oder das Hinzufügen einer 301-Weiterleitung auf die neue URL einer Seite. Bei der Priorisierung der Fehler berücksichtigen wir verschiedene Faktoren, zum Beispiel, ob die URL in einer Sitemap enthalten ist, wie viele Seiten auf die URL verlinken, ob diese Seiten Teil eurer Website sind und ob die URL kürzlich über Suchanfragen aufgerufen wurde.

Wenn ihr das Problem eurer Meinung nach behoben habt – das könnt ihr prüfen, indem ihr die URL als Googlebot abruft –, könnt ihr für uns den Fehler als „behoben“ markieren, falls ihr ein Nutzer mit uneingeschränkten Zugriffsberechtigungen seid. Damit wird der Fehler aus der Liste entfernt. Diese als „Behoben“ markierten Fehler werden in Zukunft nicht mehr in der Fehlerliste angezeigt, außer wir entdecken wieder den gleichen Fehler beim Crawlen einer URL.

Fenster, in dem der Nutzer Fehler in der Search Console als „Behoben“ markieren kann

Wir haben viel Aufwand in die neue Funktion „Crawling-Fehler“ gesteckt und hoffen natürlich, dass sie euch nützlich erscheint. Gebt uns Bescheid, was ihr davon haltet, und lasst uns eure Vorschläge im Forum wissen.