Nützliche robots.txt-Regeln
Hier einige nützliche allgemeine robots.txt-Regeln:
| Nützliche Regeln | |
|---|---|
| Crawling der gesamten Website verhindern |
Beachte, dass in manchen Fällen URLs der Website indexiert werden können, obwohl sie nicht gecrawlt wurden. User-agent: * Disallow: / |
| Crawling eines Verzeichnisses und seines Inhalts verhindern |
Wenn du das Crawling eines ganzen Verzeichnisses verhindern möchtest, hänge einen Schrägstrich an den Namen des Verzeichnisses an. User-agent: * Disallow: /calendar/ Disallow: /junk/ Disallow: /books/fiction/contemporary/ |
| Einem einzelnen Crawler Zugriff gewähren |
Nur User-agent: Googlebot-news Allow: / User-agent: * Disallow: / |
| Allen Crawlern außer einem Zugriff gewähren |
User-agent: Unnecessarybot Disallow: / User-agent: * Allow: / |
|
Das Crawling einer einzelnen Seite verhindern |
Du kannst beispielsweise angeben, dass die Seite User-agent: * Disallow: /useless_file.html Disallow: /junk/other_useless_file.html |
|
Das Crawling der gesamten Website mit Ausnahme eines Unterverzeichnisses verhindern |
Crawler dürfen nur auf das User-agent: * Disallow: / Allow: /public/ |
|
Ein bestimmtes Bild aus Google Bilder fernhalten (blockieren) |
Du kannst beispielsweise das Bild User-agent: Googlebot-Image Disallow: /images/dogs.jpg |
|
Alle Bilder auf deiner Website aus Google Bilder fernhalten (blockieren) |
Google kann Bilder und Videos nur indexieren, wenn sie gecrawlt wurden. User-agent: Googlebot-Image Disallow: / |
|
Das Crawling von Dateien eines bestimmten Dateityps verhindern |
Du kannst beispielsweise das Crawling aller User-agent: Googlebot Disallow: /*.gif$ |
|
Das Crawling der gesamten Website verhindern, aber |
Deine Seiten erscheinen dann nicht in den Suchergebnissen, werden aber weiterhin vom Web-Crawler User-agent: * Disallow: / User-agent: Mediapartners-Google Allow: / |
Platzhalter * und $ verwenden, um URLs abzudecken, die mit einem bestimmten String enden
|
Beispielsweise kannst du alle User-agent: Googlebot Disallow: /*.xls$ |