Mittwoch, 1. Oktober 2008
Es kann ganz schön kompliziert sein, eine Website zu betreiben. Gut, dass es die
Google Webmaster-Tools
gibt. Sie bieten Unterstützung dabei an, potentielle Probleme zu erkennen, bevor sie zu einer echten Gefahr werden. Einige der aufzufindenden Probleme mögen ziemlich klein sein - beispielsweise
doppelt vorhandene Titel und Beschreibungen
- andere dagegen können als schwerwiegend gelten (etwa wenn die Website nicht erreichbar ist). Zwar können euch die Google Webmaster-Tools nicht genau erklären, was geändert werden muss, sie sind aber auf jeden Fall dabei behilflich, festzustellen, ob es ein Problem gibt, dem man sich widmen sollte.
Schauen wir uns einige Beispiele aus dem Google Diskussionsforum für Webmaster an:
Behandelt euer Server den Googlebot wie einen gewöhnlichen Besucher?
Obwohl der Googlebot versucht, sich wie ein gewöhnlicher Benutzer einer Site zu verhalten, werden manche Server verwirrt. Beispielsweise könnte euer Server einen Großteil der Zeit problemlos laufen, aber - wie im Falle einiger IIS-Server - mit einem Serverfehler (oder einer anderen Reaktion, die mit einem Serverfehler zusammenhängt) reagieren, sobald er von einem Benutzer mit dem Googlebot User-Agent betreten wird. Im Diskussionsforum für Webmaster haben wir IIS-Server in der Web-Crawl-Diagnose-Sektion mit Statuscode 500 (Serverfehler) und Statuscode 404 (Datei nicht gefunden) antworten sehen, sowie mit Statuscode 302 beim Senden des Sitemap-Files . Falls euer Server zu einer Fehlerseite weiterleitet, solltet ihr sicherstellen, dass wir diese Fehlerseite crawlen können und dass sie die entsprechenden Statuscodes liefert. Sobald ihr das gemacht habt, können wir entsprechende Fehler ebenfalls in den Webmaster-Tools anzeigen. Schaut euch doch https://todotnet.com/archive/0001/01/01/7472.aspx und https://www.kowitz.net/archive/2006/12/11/asp.net-2.0-mozilla-browser-detection-hole.aspx für weiterführende Informationen zu dieser Problematik und mögliche Lösungen an!
Falls die Website auf einem Microsoft-IIS-Server gehostet wird, solltet ihr auch beachten, dass bei URLs zwischen Groß- und Kleinschreibung unterschieden wird (und entsprechend behandeln wir sie auch). Das betrifft auch URLs in der robots.txt-Datei . Dabei solltet ihr vorsichtig sein, falls euer Server URLs benutzt, ohne auf Groß- bzw. Kleinschreibung zu achten. "disallow: /paris" beispielsweise blockt /paris aber nicht /Paris.
Enthält eure Website irgendwo Links, die systematisch nicht funktionieren?
Zeitgemäße Content-Management-Systeme (CMS) erzeugen mitunter Probleme, die eine große Anzahl von Seiten betreffen. Manchmal sind diese Probleme leicht erkennbar, wenn man einen Blick auf die Website wirft. In anderen Fällen wird es ein wenig schwieriger, das Problem selbstständig ausfindig zu machen. Falls ein solcher Problemfall jede Menge nicht funktionierender Links erzeugt, werden die normalerweise im Web-Crawl-Diagnose-Bereich in eurem Webmaster-Tools-Konto angezeigt. Erst kürzlich gab es einen Fall, wo ein kleines Coding-Problem in Bezug auf den RSS-Feed mehr als 60 000 nichtexistente URLs vortäuschte/erzeugte und im Webmaster-Tools-Konto anzeigte. Wie ihr euch vorstellen könnt, verwenden wir Zeit lieber dafür, Content zu crawlen, als 404-Errors. :)
Leitet eure Website manche User weiter?
Für manche Websites ist es vorteilhaft, sich auf User aus einer bestimmten Region zu konzentrieren. Eine Art, auf die man das erzielen kann, besteht darin, User, die von woanders kommen, zu einer anderen Seite weiterzuleiten. Bedenkt aber bitte, dass der Googlebot nicht unbedingt von innerhalb der Zielregion crawlt und ebenfalls weitergeleitet werden könnte. Dies könnte dazu führen, dass der Googlebot eure Homepage nicht erreichen kann. Falls das passieren sollte, ist es wahrscheinlich, dass die Webmaster-Tools Probleme damit haben, den Überprüfungscode auf eurer Site zu bestätigen, was dazu führt, dass eure Site den Überprüft-Status verliert. Das ist nicht der einzige Grund, warum eine Site den Überprüft-Status verlieren kann, aber falls ihr dieses Verhalten regelmäßig beobachtet, wäre es auf jeden Fall einen zweiten Blick wert. Stellt außerdem sicher, dass der Googlebot genauso wie ein gewöhnlicher Benutzer dieser Region behandelt wird, ansonsten könnte man das als Cloaking interpretieren.
Ist euer Server nicht erreichbar, wenn er gecrawlt werden soll?
Das kann den besten Sites passieren: Server können sich abschalten oder eine Firewall mag dichter sein als erwartet. Falls das passiert, während der Googlebot Zutritt sucht, können wir die Site nicht crawlen und ihr kriegt eventuell gar nichts davon mit, dass wir es versucht haben. Zum Glück zeichnen wir ein solches Problem auf und ihr könnt "Netzwerk nicht erreichbar"- und "robots.txt nicht erreichbar"-Fehler in eurem Webmaster-Tools-Konto sehen.
Wurde eure Site gehackt?
Hacker bauen mitunter seltsamen Content ohne thematischen Bezug und Links zu fragwürdigen Webseiten in eure Site ein. Für den Fall, dass diese Elemente versteckt wurden, bemerkt ihr sie eventuell nicht einmal sofort. Nichtsdestotrotz können sie ein großes Problem darstellen. Das Nachrichten-Center zeigt euch zwar eventuell Warnungen in Bezug auf manche Arten von verborgenem Text an, aber trotzdem ist es vorteilhaft, selbst die Augen offen zu halten. Die Google Webmaster-Tools zeigen euch Keywords eurer Site in der "Was Googlebot sieht"-Sektion an. So kann man einen Hack schnell aufspüren. Für den Fall, dass ihr vollkommen irrelevante Keywords vorfindet, wäre es sinnvoll nachzuforschen, was los ist. Sollte die Site tasächlich gehackt worden sein, empfehle ich euch den Blogpost "Meine Site wurde gehackt - was jetzt?" .
Viele Probleme können von den Webmaster-Tools erkannt werden. Dies waren nur einige der häufigsten aus der letzten Zeit. Da es wirklich schwierig sein kann, manche dieser Probleme zu erkennen, ist es sinnvoll, das Webmaster-Tools-Konto zu Rate zu ziehen, um potentielle Gefahren zu bemerken, bevor sie zu ernsthaften Problemen werden. Und falls ihr irgendwas entdeckt, das ihr nicht eindeutig zuordnen könnt, postet doch im Diskussionsforum für Webmaster und fragt die Experten dort um Hilfe!
Habt ihr eure Site in letzter Zeit überprüft?
Advanced website diagnostics with Google Webmaster Tools (English version)
Post von John Mueller, Webmaster Trends Analyst, Google Zürich (Übersetzung von Jörg, Search Quality)
Schauen wir uns einige Beispiele aus dem Google Diskussionsforum für Webmaster an:
Behandelt euer Server den Googlebot wie einen gewöhnlichen Besucher?
Obwohl der Googlebot versucht, sich wie ein gewöhnlicher Benutzer einer Site zu verhalten, werden manche Server verwirrt. Beispielsweise könnte euer Server einen Großteil der Zeit problemlos laufen, aber - wie im Falle einiger IIS-Server - mit einem Serverfehler (oder einer anderen Reaktion, die mit einem Serverfehler zusammenhängt) reagieren, sobald er von einem Benutzer mit dem Googlebot User-Agent betreten wird. Im Diskussionsforum für Webmaster haben wir IIS-Server in der Web-Crawl-Diagnose-Sektion mit Statuscode 500 (Serverfehler) und Statuscode 404 (Datei nicht gefunden) antworten sehen, sowie mit Statuscode 302 beim Senden des Sitemap-Files . Falls euer Server zu einer Fehlerseite weiterleitet, solltet ihr sicherstellen, dass wir diese Fehlerseite crawlen können und dass sie die entsprechenden Statuscodes liefert. Sobald ihr das gemacht habt, können wir entsprechende Fehler ebenfalls in den Webmaster-Tools anzeigen. Schaut euch doch https://todotnet.com/archive/0001/01/01/7472.aspx und https://www.kowitz.net/archive/2006/12/11/asp.net-2.0-mozilla-browser-detection-hole.aspx für weiterführende Informationen zu dieser Problematik und mögliche Lösungen an!
Falls die Website auf einem Microsoft-IIS-Server gehostet wird, solltet ihr auch beachten, dass bei URLs zwischen Groß- und Kleinschreibung unterschieden wird (und entsprechend behandeln wir sie auch). Das betrifft auch URLs in der robots.txt-Datei . Dabei solltet ihr vorsichtig sein, falls euer Server URLs benutzt, ohne auf Groß- bzw. Kleinschreibung zu achten. "disallow: /paris" beispielsweise blockt /paris aber nicht /Paris.
Enthält eure Website irgendwo Links, die systematisch nicht funktionieren?
Zeitgemäße Content-Management-Systeme (CMS) erzeugen mitunter Probleme, die eine große Anzahl von Seiten betreffen. Manchmal sind diese Probleme leicht erkennbar, wenn man einen Blick auf die Website wirft. In anderen Fällen wird es ein wenig schwieriger, das Problem selbstständig ausfindig zu machen. Falls ein solcher Problemfall jede Menge nicht funktionierender Links erzeugt, werden die normalerweise im Web-Crawl-Diagnose-Bereich in eurem Webmaster-Tools-Konto angezeigt. Erst kürzlich gab es einen Fall, wo ein kleines Coding-Problem in Bezug auf den RSS-Feed mehr als 60 000 nichtexistente URLs vortäuschte/erzeugte und im Webmaster-Tools-Konto anzeigte. Wie ihr euch vorstellen könnt, verwenden wir Zeit lieber dafür, Content zu crawlen, als 404-Errors. :)
Leitet eure Website manche User weiter?
Für manche Websites ist es vorteilhaft, sich auf User aus einer bestimmten Region zu konzentrieren. Eine Art, auf die man das erzielen kann, besteht darin, User, die von woanders kommen, zu einer anderen Seite weiterzuleiten. Bedenkt aber bitte, dass der Googlebot nicht unbedingt von innerhalb der Zielregion crawlt und ebenfalls weitergeleitet werden könnte. Dies könnte dazu führen, dass der Googlebot eure Homepage nicht erreichen kann. Falls das passieren sollte, ist es wahrscheinlich, dass die Webmaster-Tools Probleme damit haben, den Überprüfungscode auf eurer Site zu bestätigen, was dazu führt, dass eure Site den Überprüft-Status verliert. Das ist nicht der einzige Grund, warum eine Site den Überprüft-Status verlieren kann, aber falls ihr dieses Verhalten regelmäßig beobachtet, wäre es auf jeden Fall einen zweiten Blick wert. Stellt außerdem sicher, dass der Googlebot genauso wie ein gewöhnlicher Benutzer dieser Region behandelt wird, ansonsten könnte man das als Cloaking interpretieren.
Ist euer Server nicht erreichbar, wenn er gecrawlt werden soll?
Das kann den besten Sites passieren: Server können sich abschalten oder eine Firewall mag dichter sein als erwartet. Falls das passiert, während der Googlebot Zutritt sucht, können wir die Site nicht crawlen und ihr kriegt eventuell gar nichts davon mit, dass wir es versucht haben. Zum Glück zeichnen wir ein solches Problem auf und ihr könnt "Netzwerk nicht erreichbar"- und "robots.txt nicht erreichbar"-Fehler in eurem Webmaster-Tools-Konto sehen.
Wurde eure Site gehackt?
Hacker bauen mitunter seltsamen Content ohne thematischen Bezug und Links zu fragwürdigen Webseiten in eure Site ein. Für den Fall, dass diese Elemente versteckt wurden, bemerkt ihr sie eventuell nicht einmal sofort. Nichtsdestotrotz können sie ein großes Problem darstellen. Das Nachrichten-Center zeigt euch zwar eventuell Warnungen in Bezug auf manche Arten von verborgenem Text an, aber trotzdem ist es vorteilhaft, selbst die Augen offen zu halten. Die Google Webmaster-Tools zeigen euch Keywords eurer Site in der "Was Googlebot sieht"-Sektion an. So kann man einen Hack schnell aufspüren. Für den Fall, dass ihr vollkommen irrelevante Keywords vorfindet, wäre es sinnvoll nachzuforschen, was los ist. Sollte die Site tasächlich gehackt worden sein, empfehle ich euch den Blogpost "Meine Site wurde gehackt - was jetzt?" .
Viele Probleme können von den Webmaster-Tools erkannt werden. Dies waren nur einige der häufigsten aus der letzten Zeit. Da es wirklich schwierig sein kann, manche dieser Probleme zu erkennen, ist es sinnvoll, das Webmaster-Tools-Konto zu Rate zu ziehen, um potentielle Gefahren zu bemerken, bevor sie zu ernsthaften Problemen werden. Und falls ihr irgendwas entdeckt, das ihr nicht eindeutig zuordnen könnt, postet doch im Diskussionsforum für Webmaster und fragt die Experten dort um Hilfe!
Habt ihr eure Site in letzter Zeit überprüft?
Advanced website diagnostics with Google Webmaster Tools (English version)
Post von John Mueller, Webmaster Trends Analyst, Google Zürich (Übersetzung von Jörg, Search Quality)