Freitag, 7. März 2025
Die Datei „robots.txt“ ist ein seit über 30 Jahren eingesetztes Tool für Websiteinhaber und wird von Crawler-Betreibern weithin unterstützt (z. B. für Tools für Websiteinhaber, Dienste und Suchmaschinen). In dieser Ausgabe der Robots Refresher-Reihe sehen wir uns die Datei „robots.txt“ genauer an. Mit dieser Datei könnt ihr Robots flexibel anweisen, was sie auf eurer Website tun sollen und was nicht.
Erste Schritte mit robots.txt
Die Funktionsweise dieser Dateien ist ganz einfach: Ihr erstellt eine Textdatei namens „robots.txt“ und laden sie dann auf eure Website hoch. Wenn ihr ein Content-Management-System (CMS) verwendet, ist es wahrscheinlich sogar noch einfacher. Ihr könnt die robots.txt-Datei leer lassen (oder gar keine haben), wenn eure gesamte Website gecrawlt werden soll. Ihr könnt aber auch Regeln hinzufügen, um das Crawling zu verwalten. Wenn ihr beispielsweise allen Bots (auch Crawler, Robot oder Spider genannt) mitteilen möchtet, dass sie eure Seite „In den Einkaufswagen legen“ nicht aufrufen dürfen, könnt ihr Folgendes in eure robots.txt-Datei schreiben:
user-agent: * disallow: /cart
Konkretere Möglichkeiten mit robots.txt
Die robots.txt-Datei ist quasi das Schweizer Taschenmesser, mit dem ihr festlegen könnt, was verschiedene Robots auf eurer Website tun oder nicht tun dürfen. Sie kann nur wenige Zeilen lang sein oder komplexere Regeln mit sehr spezifischen URL-Mustern enthalten. Ihr könnt eine robots.txt-Datei verwenden, um technische Probleme zu beheben (z. B. unnötige paginierte Seiten) oder aus redaktionellen oder persönlichen Gründen (z. B. wenn bestimmte Dinge nicht gecrawlt werden sollen). Ihr könnt zum Beispiel:
Mehrere (aber nicht alle) Bots über dieselbe Regel informieren
Diese Gruppe weist sowohl |
user-agent: examplebot user-agent: otherbot disallow: /search |
Einen bestimmten Bot anweisen, Pfade zu vermeiden, die einen bestimmten Text enthalten
Ihr könnt beispielsweise |
user-agent: documentsbot disallow: *.pdf |
Einem Bot mitteilen, dass er euren Blog, aber nicht die Entwürfe crawlen darf |
user-agent: documentsbot allow: /blog/ disallow: /blog/drafts/ |
Einen Crawler für einen Teil eurer Website blockieren, anderen Crawlern dagegen den Zugriff auf eure Website erlauben
In dieser robots.txt-Datei wird der Zugriff des genannten |
user-agent: * allow: / user-agent: aicorp-trainer-bot disallow: / allow: /$ |
Einen Kommentar für euer zukünftiges Ich hinterlassen
Ihr könnt eine Zeile mit |
# I don't want bots in my highschool photos user-agent: * disallow: /photos/highschool/ |
Weitere Informationen findet ihr in unserer Liste nützlicher robots.txt-Regeln.
Änderungen an der robots.txt-Datei vornehmen (in der Praxis)
Das Protokoll zum Ausschluss von Robots (Robots Exclusion Protocol, REP) funktioniert, indem Regeln („allow“ oder „disallow“) zusammengestellt werden und angegeben wird, für welche Robots diese Regeln gelten. Ihr müsst nicht programmieren lernen oder mit Tools herumspielen. Ihr könnt diese Regeln einfach in eine Textdatei einfügen und diese auf eure Website hochladen.
Bei den meisten Websites ist es sogar noch einfacher. Wenn ihr ein CMS verwendet, ist in der Regel bereits eine Funktion zum Ändern der robots.txt-Datei integriert. Einige CMS ermöglichen es beispielsweise, die robots.txt-Datei über Kästchen oder ein einfaches Formular anzupassen. Viele haben auch Plug-ins, mit denen ihr Regeln für eure robots.txt-Datei einrichten und schreiben könnt. Wenn ihr wissen möchtet, was in eurem CMS möglich ist, könnt ihr nach dem Namen eures CMS plus „robots.txt-Datei bearbeiten“ suchen.
Nachdem ihr alles eingerichtet habt, könnt ihr auch testen, ob die Datei wie gewünscht eingerichtet ist. Es gibt viele Testtools, die von der Webcommunity entwickelt wurden, um euch dabei zu helfen, z. B. das robots.txt-Testtool von TametheBots und dieser robots.txt-Parser, die die Open-Source-robots.txt-Parser-Bibliothek verwenden.
Wenn ihr Fragen zu robots.txt habt, könnt ihr euch auf LinkedIn an uns wenden oder in unseren Communityforen mit Gleichgesinnten chatten.