Neue Reihe: Robots Refresher

Montag, 24. Februar 2025

Gelegentlich erhalten wir Fragen zu robots.txt-Dateien, Robots-Meta-Tags und den damit verbundenen Steuerfunktionen. Nach unserer Dezemberreihe zum Crawling haben wir uns überlegt, dass es an der Zeit ist, eine kleine Auffrischung zusammenzustellen. Wenn ihr mehr über diese Einstellungen erfahren möchtet, lest euch diese neue Blogpost-Reihe durch.

Beginnen wir ganz am Anfang mit der robots.txt-Datei.

Was ist eine robots.txt-Datei?

Eine robots.txt-Datei ist eine Datei, die jede Website bereitstellen kann. In der einfachsten Form ist es eine Textdatei, die auf dem Server gespeichert wird. Fast alle Websites haben eine robots.txt-Datei. Wenn ihr sich eine ansehen möchtet, fügt dem Domainnamen einfach /robots.txt am Ende hinzu und ruft diese Adresse auf. Die robots.txt-Datei dieser Website befindet sich beispielsweise unter developers.google.com/robots.txt.

Die meisten Websites verwenden Content-Management-Systeme (CMS), die diese Dateien automatisch erstellen. Aber auch wenn ihr eure Website „von Hand“ erstellt, ist das Erstellen der Datei ganz einfach. In zukünftigen Beiträgen werden wir uns einige der Varianten ansehen.

Wozu dienen diese Dateien?

In robots.txt-Dateien wird Website-Crawlern mitgeteilt, welche Teile einer Website für den automatischen Zugriff (Crawling) verfügbar sind und welche nicht. So können Websites die gesamte Website, Teile der Website oder sogar bestimmte Dateien auf der Website angeben. Die Dateien sind nicht nur maschinenlesbar, sondern auch für Menschen lesbar. Das bedeutet, dass es immer ein eindeutiges Ja oder Nein zu der Frage gibt, ob ein bestimmter Crawler auf eine Seite automatisch zugreifen darf.

Es ist Standardpraxis, dass alle, die einen Crawler erstellen, diese Richtlinien einhalten. Für Entwickler ist es einfach, sie zu unterstützen: Es gibt mehr als 1.000 Open-Source-Bibliotheken für Entwickler. Die Datei enthält Anweisungen für Crawler zum optimalen Crawling einer Website. Moderne Websites können komplex sein und die automatische Navigation kann eine Herausforderung darstellen. Mithilfe von robots.txt-Regeln können Crawler sich auf die entsprechenden Inhalte konzentrieren. Außerdem können Crawler so dynamisch erstellte Seiten vermeiden, die den Server belasten und das Crawling unnötig ineffizient machen. Da robots.txt-Dateien sowohl technisch hilfreich als auch für die Beziehungen zu Websiteinhabern vorteilhaft sind, folgen die meisten kommerziellen Crawler-Betreiber diesen.

Von der Öffentlichkeit erstellt und erweitert

robots.txt-Dateien gibt es fast so lange wie das Internet und sie sind eines der wichtigsten Tools, die das Internet so leistungsfähig machen. HTML, die Grundlage von Webseiten, wurde 1991 erfunden, die ersten Browser kamen 1992 und robots.txt wurde 1994 eingeführt. Das bedeutet, dass sie sogar älter sind als Google, das 1998 gegründet wurde. Das Format hat sich seitdem kaum verändert und eine Datei aus den Anfangstagen ist auch heute noch gültig. Nach drei Jahren globalen Community-Engagements wurde es 2022 zum vorgeschlagenen IETF-Standard.

Wenn ihr eine Website habt, habt ihr wahrscheinlich auch eine robots.txt-Datei. Es gibt eine lebendige und aktive Community rund um robots.txt und Tausende von Softwaretools, mit denen sich robots.txt-Dateien in allen Formen und Größen erstellen, testen, verwalten oder verstehen lassen. Das Schöne an robots.txt ist jedoch, dass ihr keine ausgefallenen Tools benötigt. Ihr könnt die Datei in einem Browser lesen und für eine von euch verwaltete Website in einem einfachen Texteditor anpassen.

Ausblick

Das robots.txt-Format ist flexibel. Es gibt noch Raum für Wachstum, die öffentliche Web-Community kann sie erweitern und Crawler können Erweiterungen bei Bedarf ankündigen, ohne die bestehende Nutzung zu beeinträchtigen. Das geschah 2007, als die Suchmaschinen die Sitemap-Richtlinie bekannt gaben. Außerdem kommt es regelmäßig vor, wenn neue „User-Agents“ von Crawler-Betreibern und Suchmaschinen unterstützt werden, z. B. solche, die für KI-Zwecke verwendet werden.

Die robots.txt-Datei ist also nicht wegzudenken. Neue Dateiformate brauchen einige Jahre, bis sie von der Internetgemeinschaft allgemein akzeptiert werden. Die entsprechenden Tools, die sie für das gesamte Ökosystem nutzbar machen, brauchen noch länger. Die Datei ist einfach, detailliert und aussagekräftig, weithin bekannt und akzeptiert und funktioniert einfach, und das schon seit Jahrzehnten.

Möchtet ihr mehr über die Details erfahren? Weitere Beiträge unserer Robots Refresher-Reihe folgen demnächst im Search Central-Blog.