Robots Refresher: robots.txt – eine flexible Möglichkeit, die Erkundung eurer Website durch Maschinen zu steuern

Freitag, 7. März 2025

Die Datei „robots.txt“ ist ein seit über 30 Jahren eingesetztes Tool für Websiteinhaber und wird von Crawler-Betreibern weithin unterstützt (z. B. für Tools für Websiteinhaber, Dienste und Suchmaschinen). In dieser Ausgabe der Robots Refresher-Reihe sehen wir uns die Datei „robots.txt“ genauer an. Mit dieser Datei könnt ihr Robots flexibel anweisen, was sie auf eurer Website tun sollen und was nicht.

Erste Schritte mit robots.txt

Die Funktionsweise dieser Dateien ist ganz einfach: Ihr erstellt eine Textdatei namens „robots.txt“ und laden sie dann auf eure Website hoch. Wenn ihr ein Content-Management-System (CMS) verwendet, ist es wahrscheinlich sogar noch einfacher. Ihr könnt die robots.txt-Datei leer lassen (oder gar keine haben), wenn eure gesamte Website gecrawlt werden soll. Ihr könnt aber auch Regeln hinzufügen, um das Crawling zu verwalten. Wenn ihr beispielsweise allen Bots (auch Crawler, Robot oder Spider genannt) mitteilen möchtet, dass sie eure Seite „In den Einkaufswagen legen“ nicht aufrufen dürfen, könnt ihr Folgendes in eure robots.txt-Datei schreiben:

user-agent: *
disallow: /cart

Konkretere Möglichkeiten mit robots.txt

Die robots.txt-Datei ist quasi das Schweizer Taschenmesser, mit dem ihr festlegen könnt, was verschiedene Robots auf eurer Website tun oder nicht tun dürfen. Sie kann nur wenige Zeilen lang sein oder komplexere Regeln mit sehr spezifischen URL-Mustern enthalten. Ihr könnt eine robots.txt-Datei verwenden, um technische Probleme zu beheben (z. B. unnötige paginierte Seiten) oder aus redaktionellen oder persönlichen Gründen (z. B. wenn bestimmte Dinge nicht gecrawlt werden sollen). Ihr könnt zum Beispiel:

Mehrere (aber nicht alle) Bots über dieselbe Regel informieren Diese Gruppe weist sowohl `examplebot` als auch `otherbot` an, den Pfad `/search` zu meiden.	user-agent: examplebot user-agent: otherbot disallow: /search
Einen bestimmten Bot anweisen, Pfade zu vermeiden, die einen bestimmten Text enthalten Ihr könnt beispielsweise `documentsbot` anweisen, keine Dateien zu crawlen, deren Name „.pdf“ enthält.	user-agent: documentsbot disallow: *.pdf
Einem Bot mitteilen, dass er euren Blog, aber nicht die Entwürfe crawlen darf	user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/
Einen Crawler für einen Teil eurer Website blockieren, anderen Crawlern dagegen den Zugriff auf eure Website erlauben In dieser robots.txt-Datei wird der Zugriff des genannten `aicorp-trainer-bot` auf alle Seiten außer der Startseite unterbunden, während anderen Crawlern (z. B. Suchmaschinen) der Zugriff auf die Website erlaubt wird.	user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$
Einen Kommentar für euer zukünftiges Ich hinterlassen Ihr könnt eine Zeile mit `#` beginnen, um euch daran zu erinnern, warum ihr eine bestimmte Regel dort platziert habt.	# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/

Weitere Informationen findet ihr in unserer Liste nützlicher robots.txt-Regeln.

Änderungen an der robots.txt-Datei vornehmen (in der Praxis)

Das Protokoll zum Ausschluss von Robots (Robots Exclusion Protocol, REP) funktioniert, indem Regeln („allow“ oder „disallow“) zusammengestellt werden und angegeben wird, für welche Robots diese Regeln gelten. Ihr müsst nicht programmieren lernen oder mit Tools herumspielen. Ihr könnt diese Regeln einfach in eine Textdatei einfügen und diese auf eure Website hochladen.

Bei den meisten Websites ist es sogar noch einfacher. Wenn ihr ein CMS verwendet, ist in der Regel bereits eine Funktion zum Ändern der robots.txt-Datei integriert. Einige CMS ermöglichen es beispielsweise, die robots.txt-Datei über Kästchen oder ein einfaches Formular anzupassen. Viele haben auch Plug-ins, mit denen ihr Regeln für eure robots.txt-Datei einrichten und schreiben könnt. Wenn ihr wissen möchtet, was in eurem CMS möglich ist, könnt ihr nach dem Namen eures CMS plus „robots.txt-Datei bearbeiten“ suchen.

Nachdem ihr alles eingerichtet habt, könnt ihr auch testen, ob die Datei wie gewünscht eingerichtet ist. Es gibt viele Testtools, die von der Webcommunity entwickelt wurden, um euch dabei zu helfen, z. B. das robots.txt-Testtool von TametheBots und dieser robots.txt-Parser, die die Open-Source-robots.txt-Parser-Bibliothek verwenden.

Wenn ihr Fragen zu robots.txt habt, könnt ihr euch auf LinkedIn an uns wenden oder in unseren Communityforen mit Gleichgesinnten chatten.

Beitrag von Martin Splitt und John Mueller, Search Relations-Team

Robots Refresher: robots.txt – eine flexible Möglichkeit, die Erkundung eurer Website durch Maschinen zu steuern Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Erste Schritte mit robots.txt

Konkretere Möglichkeiten mit robots.txt

Änderungen an der robots.txt-Datei vornehmen (in der Praxis)

Sehen Sie sich die restlichen Beiträge der Robots Refresher-Reihe an:

Robots Refresher: robots.txt – eine flexible Möglichkeit, die Erkundung eurer Website durch Maschinen zu steuern