Nützliche robots.txt-Regeln
Hier einige nützliche allgemeine robots.txt-Regeln:
| Nützliche Regeln | |
|---|---|
| Crawling der gesamten Website verhindern |
Beachte, dass in manchen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden. User-agent: * Disallow: / |
Crawling einer gesamten Website zulassen (mit einer leeren Disallow-Regel)
|
Dadurch wird allen Crawlern ausdrücklich der Zugriff auf die gesamte Website erlaubt. Dies ist funktional gleichwertig mit dem Fehlen einer robots.txt-Datei oder der Verwendung einer User-agent: * Disallow: |
| Crawling eines Verzeichnisses und seines Inhalts verhindern |
Wenn du das Crawling eines ganzen Verzeichnisses verhindern möchtest, hänge einen Schrägstrich an den Namen des Verzeichnisses an. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
|
Das Crawling einer einzelnen Seite verhindern |
Du kannst beispielsweise angeben, dass die Seite User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Das Crawling der gesamten Website mit Ausnahme eines Unterverzeichnisses verhindern |
Crawler dürfen nur auf das User-agent: * Disallow: / Allow: /public/ |
| Einem einzelnen Crawler Zugriff gewähren |
Nur User-agent: Googlebot-News Allow: / User-agent: * Disallow: / |
| Allen Crawlern außer einem Zugriff gewähren |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Das Crawling der gesamten Website verhindern, aber |
Deine Seiten erscheinen dann nicht in den Google-Suchergebnissen, werden aber weiterhin vom User-agent: * Disallow: / User-agent: Storebot-Google Allow: / |
|
Alle Bilder auf deiner Website aus Google fernhalten (blockieren) (gilt für alle Google-Produkte, in denen Bilder angezeigt werden, z. B. Google Bilder und Discover) |
Google kann Bilder und Videos nur indexieren, wenn sie gecrawlt wurden. User-agent: Googlebot-Image Disallow: / |
|
Ein bestimmtes Bild aus Google Bilder fernhalten (blockieren) |
Du kannst beispielsweise das Bild User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Das Crawling von Dateien eines bestimmten Dateityps verhindern |
Du kannst beispielsweise das Crawling aller User-agent: Googlebot Disallow: /*.gif$ |
Platzhalter * und $ verwenden, um URLs abzudecken, die mit einem bestimmten String enden
|
Beispielsweise kannst du alle User-agent: Googlebot Disallow: /*.xls$ |
| Mehrere User-Agents in einer einzelnen Gruppe kombinieren |
Wenn du Regeln für mehrere Crawler in einer Gruppe zusammenfasst, wird die Datei kürzer und lässt sich leichter verwalten, da alle Regeln in der Gruppe für jeden aufgeführten User-Agent gelten. Das ist dasselbe, als würdest du die User-Agents zweimal mit den entsprechenden Regeln auflisten. User-agent: Googlebot User-agent: Storebot-Google Allow: /cats Disallow: / |