Nützliche robots.txt-Regeln

Hier einige nützliche allgemeine robots.txt-Regeln:

Nützliche Regeln
Crawling der gesamten Website verhindern

Beachte, dass in manchen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden.

User-agent: *
Disallow: /
Crawling eines Verzeichnisses und seines Inhalts verhindern

Wenn du das Crawling eines ganzen Verzeichnisses verhindern möchtest, hänge einen Schrägstrich an den Namen des Verzeichnisses an.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Einem einzelnen Crawler Zugriff gewähren

Nur googlebot-news darf die gesamte Website crawlen.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Allen Crawlern außer einem Zugriff gewähren

Unnecessarybot darf die Website nicht crawlen, alle anderen Bots dürfen es.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Das Crawling einer einzelnen Seite verhindern

Du kannst beispielsweise angeben, dass die Seite useless_file.html unter https://example.com/useless_file.html und other_useless_file.html im Verzeichnis junk nicht zulässig ist.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Das Crawling der gesamten Website mit Ausnahme eines Unterverzeichnisses verhindern

Crawler dürfen nur auf das public-Unterverzeichnis zugreifen.

User-agent: *
Disallow: /
Allow: /public/

Ein bestimmtes Bild aus Google Bilder fernhalten (blockieren)

Du kannst beispielsweise das Bild dogs.jpg blockieren.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Alle Bilder auf deiner Website aus Google Bilder fernhalten (blockieren)

Google kann Bilder und Videos nur indexieren, wenn sie gecrawlt wurden.

User-agent: Googlebot-Image
Disallow: /

Das Crawling von Dateien eines bestimmten Dateityps verhindern

Du kannst beispielsweise das Crawling aller .gif-Dateien unterbinden.

User-agent: Googlebot
Disallow: /*.gif$

Das Crawling der gesamten Website verhindern, aber Mediapartners-Google zulassen

Deine Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Web-Crawler Mediapartners-Google analysiert, um zu entscheiden, welche Anzeigen ausgeliefert werden sollen.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Platzhalter * und $ verwenden, um URLs abzudecken, die mit einem bestimmten String enden

Beispielsweise kannst du alle .xls-Dateien ausschließen.

User-agent: Googlebot
Disallow: /*.xls$