Nützliche robots.txt-Regeln

Hier einige nützliche allgemeine robots.txt-Regeln:

Nützliche Regeln
Crawling der gesamten Website verhindern

Beachte, dass in manchen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden.

User-agent: *
Disallow: /
Crawling einer gesamten Website zulassen (mit einer leeren Disallow-Regel)

Dadurch wird allen Crawlern ausdrücklich der Zugriff auf die gesamte Website erlaubt. Dies ist funktional gleichwertig mit dem Fehlen einer robots.txt-Datei oder der Verwendung einer Allow: /-Regel.

User-agent: *
Disallow:
Crawling eines Verzeichnisses und seines Inhalts verhindern

Wenn du das Crawling eines ganzen Verzeichnisses verhindern möchtest, hänge einen Schrägstrich an den Namen des Verzeichnisses an.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/

Das Crawling einer einzelnen Seite verhindern

Du kannst beispielsweise angeben, dass die Seite useless_file.html unter https://example.com/useless_file.html und other_useless_file.html im Verzeichnis junk nicht zulässig ist.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Das Crawling der gesamten Website mit Ausnahme eines Unterverzeichnisses verhindern

Crawler dürfen nur auf das public-Unterverzeichnis zugreifen.

User-agent: *
Disallow: /
Allow: /public/
Einem einzelnen Crawler Zugriff gewähren

Nur Googlebot-News darf die gesamte Website crawlen.

User-agent: Googlebot-News
Allow: /

User-agent: *
Disallow: /
Allen Crawlern außer einem Zugriff gewähren

Unnecessarybot darf die Website nicht crawlen, alle anderen Bots dürfen es.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Das Crawling der gesamten Website verhindern, aber Storebot-Google zulassen

Deine Seiten erscheinen dann nicht in den Google-Suchergebnissen, werden aber weiterhin vom Storebot-Google-Web-Crawler analysiert, um deine Produkte bei Google Shopping zu präsentieren.

User-agent: *
Disallow: /

User-agent: Storebot-Google
Allow: /

Alle Bilder auf deiner Website aus Google fernhalten (blockieren) (gilt für alle Google-Produkte, in denen Bilder angezeigt werden, z. B. Google Bilder und Discover)

Google kann Bilder und Videos nur indexieren, wenn sie gecrawlt wurden.

User-agent: Googlebot-Image
Disallow: /

Ein bestimmtes Bild aus Google Bilder fernhalten (blockieren)

Du kannst beispielsweise das Bild dogs.jpg blockieren.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Das Crawling von Dateien eines bestimmten Dateityps verhindern

Du kannst beispielsweise das Crawling aller .gif-Dateien unterbinden.

User-agent: Googlebot
Disallow: /*.gif$
Platzhalter * und $ verwenden, um URLs abzudecken, die mit einem bestimmten String enden

Beispielsweise kannst du alle .xls-Dateien ausschließen:

User-agent: Googlebot
Disallow: /*.xls$
Mehrere User-Agents in einer einzelnen Gruppe kombinieren

Wenn du Regeln für mehrere Crawler in einer Gruppe zusammenfasst, wird die Datei kürzer und lässt sich leichter verwalten, da alle Regeln in der Gruppe für jeden aufgeführten User-Agent gelten. Das ist dasselbe, als würdest du die User-Agents zweimal mit den entsprechenden Regeln auflisten.

User-agent: Googlebot
User-agent: Storebot-Google
Allow: /cats
Disallow: /