Robots Refresher: robots.txt – eine flexible Möglichkeit, die Erkundung eurer Website durch Maschinen zu steuern

Freitag, 7. März 2025

Die Datei „robots.txt“ ist ein seit über 30 Jahren eingesetztes Tool für Websiteinhaber und wird von Crawler-Betreibern weithin unterstützt (z. B. für Tools für Websiteinhaber, Dienste und Suchmaschinen). In dieser Ausgabe der Robots Refresher-Reihe sehen wir uns die Datei „robots.txt“ genauer an. Mit dieser Datei könnt ihr Robots flexibel anweisen, was sie auf eurer Website tun sollen und was nicht.

Erste Schritte mit robots.txt

Die Funktionsweise dieser Dateien ist ganz einfach: Ihr erstellt eine Textdatei namens „robots.txt“ und laden sie dann auf eure Website hoch. Wenn ihr ein Content-Management-System (CMS) verwendet, ist es wahrscheinlich sogar noch einfacher. Ihr könnt die robots.txt-Datei leer lassen (oder gar keine haben), wenn eure gesamte Website gecrawlt werden soll. Ihr könnt aber auch Regeln hinzufügen, um das Crawling zu verwalten. Wenn ihr beispielsweise allen Bots (auch Crawler, Robot oder Spider genannt) mitteilen möchtet, dass sie eure Seite „In den Einkaufswagen legen“ nicht aufrufen dürfen, könnt ihr Folgendes in eure robots.txt-Datei schreiben:

user-agent: *
disallow: /cart

Konkretere Möglichkeiten mit robots.txt

Die robots.txt-Datei ist quasi das Schweizer Taschenmesser, mit dem ihr festlegen könnt, was verschiedene Robots auf eurer Website tun oder nicht tun dürfen. Sie kann nur wenige Zeilen lang sein oder komplexere Regeln mit sehr spezifischen URL-Mustern enthalten. Ihr könnt eine robots.txt-Datei verwenden, um technische Probleme zu beheben (z. B. unnötige paginierte Seiten) oder aus redaktionellen oder persönlichen Gründen (z. B. wenn bestimmte Dinge nicht gecrawlt werden sollen). Ihr könnt zum Beispiel:

Mehrere (aber nicht alle) Bots über dieselbe Regel informieren

Diese Gruppe weist sowohl examplebot als auch otherbot an, den Pfad /search zu meiden.

user-agent: examplebot
user-agent: otherbot
disallow: /search

Einen bestimmten Bot anweisen, Pfade zu vermeiden, die einen bestimmten Text enthalten

Ihr könnt beispielsweise documentsbot anweisen, keine Dateien zu crawlen, deren Name „.pdf“ enthält.

user-agent: documentsbot
disallow: *.pdf

Einem Bot mitteilen, dass er euren Blog, aber nicht die Entwürfe crawlen darf

user-agent: documentsbot
allow: /blog/
disallow: /blog/drafts/

Einen Crawler für einen Teil eurer Website blockieren, anderen Crawlern dagegen den Zugriff auf eure Website erlauben

In dieser robots.txt-Datei wird der Zugriff des genannten aicorp-trainer-bot auf alle Seiten außer der Startseite unterbunden, während anderen Crawlern (z. B. Suchmaschinen) der Zugriff auf die Website erlaubt wird.

user-agent: *
allow: /

user-agent: aicorp-trainer-bot
disallow: /
allow: /$

Einen Kommentar für euer zukünftiges Ich hinterlassen

Ihr könnt eine Zeile mit # beginnen, um euch daran zu erinnern, warum ihr eine bestimmte Regel dort platziert habt.

# I don't want bots in my highschool photos
user-agent: *
disallow: /photos/highschool/

Weitere Informationen findet ihr in unserer Liste nützlicher robots.txt-Regeln.

Änderungen an der robots.txt-Datei vornehmen (in der Praxis)

Das Protokoll zum Ausschluss von Robots (Robots Exclusion Protocol, REP) funktioniert, indem Regeln („allow“ oder „disallow“) zusammengestellt werden und angegeben wird, für welche Robots diese Regeln gelten. Ihr müsst nicht programmieren lernen oder mit Tools herumspielen. Ihr könnt diese Regeln einfach in eine Textdatei einfügen und diese auf eure Website hochladen.

Bei den meisten Websites ist es sogar noch einfacher. Wenn ihr ein CMS verwendet, ist in der Regel bereits eine Funktion zum Ändern der robots.txt-Datei integriert. Einige CMS ermöglichen es beispielsweise, die robots.txt-Datei über Kästchen oder ein einfaches Formular anzupassen. Viele haben auch Plug-ins, mit denen ihr Regeln für eure robots.txt-Datei einrichten und schreiben könnt. Wenn ihr wissen möchtet, was in eurem CMS möglich ist, könnt ihr nach dem Namen eures CMS plus „robots.txt-Datei bearbeiten“ suchen.

Nachdem ihr alles eingerichtet habt, könnt ihr auch testen, ob die Datei wie gewünscht eingerichtet ist. Es gibt viele Testtools, die von der Webcommunity entwickelt wurden, um euch dabei zu helfen, z. B. das robots.txt-Testtool von TametheBots und dieser robots.txt-Parser, die die Open-Source-robots.txt-Parser-Bibliothek verwenden.

Wenn ihr Fragen zu robots.txt habt, könnt ihr euch auf LinkedIn an uns wenden oder in unseren Communityforen mit Gleichgesinnten chatten.


Sehen Sie sich die restlichen Beiträge der Robots Refresher-Reihe an: