Neues robots.txt-Feature und REP Meta-Tags

Freitag, 17. August 2007

Wir haben unser robots.txt-Analyse-Tool in der Webmaster-Zentrale verbessert mit dessen Hilfe man Sitemapsangaben und relative Urls erkennen kann. Frühere Versionen berücksichtigten Sitemaps in keiner Weise und konnten nur absolute Urls interpretieren. Alles andere erzeugte die Meldung "Syntax nicht verstanden".

Diese Fehlermeldungen haben wir auch verbessert. Sofern mehrere Fehler existieren, bekommt ihr diese nun alle in einer Zeile angezeigt, im Gegensatz zu früheren Versionen, die jeweils nur den ersten Fehler ausgaben. Ebenso haben wir andere allgemeine Verbesserungen an der Analyse und der Validierung vorgenommen.

Stellt euch vor, ihr seid für die Domain www.example.com verantwortlich, und ihr möchtet, dass die Suchmaschine eure gesamte Website mit Ausnahme des Ordners /images indexiert. Zudem wollt ihr sicherstellen, dass eure Sitemap berücksichtigt wird und gebt dementsprechend Folgendes in eurer robots.txt-Datei an:

disalow images

user-agent: *
Disallow:

sitemap: https://www.example.com/sitemap.xml

Ihr geht zur Webmaster-Zentrale, um eure Website gegen das robots.txt-Analyse-Tool zu testen, wobei ihr diese beiden Urls benutzt:

https://www.example.com
/archives

Ältere Versionen dieses Tools hätten folgende Meldung ausgegeben:

Die verbesserte Version gibt mehr Informationen über die robots.txt-Datei:

Probiert es selbst in den Webmaster-Tools.

Ebenso wollen wir sicherstellen, dass ihr von dem neuen unavailable_after Meta-Tag gehört habt, den Dan Crow vor einigen Wochen im Official Google Blog vorgestellt hat. Dieser Tag erlaubt eine dynamischere Beziehung zwischen eurer Website und dem Googlebot. Das bedeutet, wenn ihr zum Beispiel auf www.example.com eine nur vorübergehend veröffentlichte Nachricht habt oder eine Seite mit nur begrenzt erhältlichen Angeboten oder Promotions, dann könnt ihr jetzt exakt das Datum und die Zeit festlegen, wann der Googlebot bestimmte Seiten von euch crawlen und indexieren soll.

Angenommen, ihr habt eine Promotion laufen, die Ende 2007 zu Ende ist. Im Header der Seite www.example.com/2007promotion.html würdet ihr dann Folgendes festlegen:

<META NAME="GOOGLEBOT"
CONTENT="unavailable_after: 31-Dec-2007 23:59:59 EST">

Die zweite interessante Neuigkeit: Eine neue robots.txt-Richtlinie, die beinhaltet, dass nun das Robots Exclusion Protocol (REP) Meta-Tag auch für Nicht-HTML-Seiten unterstützt wird! Damit könnt ihr nun eure Videos, Spreadsheets und andere indexierte Dateitypen in derselben Weise kontrollieren. Um auf das oben genannte Beispiel zurückzukommen, lasst uns annehmen, eure Promotionsseite ist im PDF-Format. Für www.example.com/2007promotion.pdf würdet ihr Folgendes verwenden:

X-Robots-Tag: unavailable_after: 31 Dec
2007 23:59:59 EST

Denkt daran, dass REP META-Tags hilfreich beim Implementieren von noarchive, nosnippet and jetzt auch unavailable_after Tags sein können, um Anweisungen auf Seitenebene geben. Im Gegensatz dazu setzt das robots.txt an der Domainebene an. Diese Features haben wir auf Anfragen von Bloggern und Webmastern eingebaut - habt also Spaß damit. Sofern ihr andere Vorschläge habt: lasst es uns wissen! Noch Fragen? Bitte stellt diese in der Google Diskussiongruppe für Webmaster . Original

Post von John Blackburn, Webmaster Tools and Matt Dougherty, Search Quality
(Übersetzung von Claudia, Search Quality)