Nützliche robots.txt-Regeln

Hier einige nützliche allgemeine robots.txt-Regeln:

Nützliche Regeln
Crawling der gesamten Website verhindern	Beachte, dass in manchen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden. Hinweis: Die verschiedenen AdsBot-Crawler werden vom Sternchen nicht abgedeckt. Sie müssen ausdrücklich aufgeführt werden. User-agent: * Disallow: /
Crawling eines Verzeichnisses und seines Inhalts verhindern	Wenn du das Crawling eines ganzen Verzeichnisses verhindern möchtest, hänge einen Schrägstrich an den Namen des Verzeichnisses an. Hinweis: Verwende zum Blockieren privater Inhalte keinesfalls eine robots.txt-Datei, sondern eine geeignete Authentifizierungsmethode. Durch die robots.txt-Datei gesperrte URLs können indexiert werden, ohne dass sie gecrawlt wurden. Die robots.txt-Datei kann außerdem von allen Nutzern gelesen werden, wodurch der Speicherort deiner privaten Inhalte öffentlich zugänglich wird. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/
Einem einzelnen Crawler Zugriff gewähren	Nur `googlebot-news` darf die gesamte Website crawlen. User-agent: Googlebot-news Allow: / User-agent: * Disallow: /
Allen Crawlern außer einem Zugriff gewähren	`Unnecessarybot` darf die Website nicht crawlen, alle anderen Bots dürfen es. User-agent: Unnecessarybot Disallow: / User-agent: * Allow: /
Das Crawling einer einzelnen Seite verhindern	Du kannst beispielsweise angeben, dass die Seite `useless_file.html` unter `https://example.com/useless_file.html` und `other_useless_file.html` im Verzeichnis `junk` nicht zulässig ist. User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html
Das Crawling der gesamten Website mit Ausnahme eines Unterverzeichnisses verhindern	Crawler dürfen nur auf das `public`-Unterverzeichnis zugreifen. User-agent: * Disallow: / Allow: /public/
Ein bestimmtes Bild aus Google Bilder fernhalten (blockieren)	Du kannst beispielsweise das Bild `dogs.jpg` blockieren. User-agent: Googlebot-Image Disallow: /images/dogs.jpg
Alle Bilder auf deiner Website aus Google Bilder fernhalten (blockieren)	Google kann Bilder und Videos nur indexieren, wenn sie gecrawlt wurden. User-agent: Googlebot-Image Disallow: /
Das Crawling von Dateien eines bestimmten Dateityps verhindern	Du kannst beispielsweise das Crawling aller `.gif`-Dateien unterbinden. User-agent: Googlebot Disallow: /*.gif$
Das Crawling der gesamten Website verhindern, aber `Mediapartners-Google` zulassen	Deine Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Web-Crawler `Mediapartners-Google` analysiert, um zu entscheiden, welche Anzeigen ausgeliefert werden sollen. User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: /
Platzhalter `*` und `$` verwenden, um URLs abzudecken, die mit einem bestimmten String enden	Beispielsweise kannst du alle `.xls`-Dateien ausschließen. User-agent: Googlebot Disallow: /*.xls$