Die Datei robots.txt
teilt Suchmaschinen mit, welche Seiten deiner Website sie crawlen können. Eine ungültige robots.txt
-Konfiguration kann zwei Arten von Problemen verursachen:
- Sie kann Suchmaschinen daran hindern, öffentliche Seiten zu crawlen, sodass Ihre Inhalte seltener in den Suchergebnissen angezeigt werden.
- Dies kann dazu führen, dass Suchmaschinen Seiten crawlen, die nicht in den Suchergebnissen erscheinen sollen.
So schlägt die robots.txt
-Prüfung von Lighthouse fehl
Lighthouse kennzeichnet ungültige robots.txt
-Dateien:
Maximieren Sie die Prüfung robots.txt
ist ungültig im Bericht, um das Problem mit dem robots.txt
zu ermitteln.
Häufige Fehler:
No user-agent specified
Pattern should either be empty, start with "/" or "*"
Unknown directive
Invalid sitemap URL
$ should only be used at the end of the pattern
Lighthouse überprüft nicht, ob sich die Datei robots.txt
am richtigen Speicherort befindet. Damit die Datei korrekt funktioniert, muss sie sich im Stammverzeichnis Ihrer Domain oder Subdomain befinden.
Probleme mit robots.txt
beheben
robots.txt
darf keinen HTTP-Statuscode 5XX zurückgeben
Wenn Ihr Server einen Serverfehler (einen HTTP-Statuscode in den 500er-Schritten) für robots.txt
zurückgibt, wissen Suchmaschinen nicht, welche Seiten gecrawlt werden sollten. Unter Umständen wird deine gesamte Website nicht mehr gecrawlt, sodass neue Inhalte nicht indexiert werden.
Öffnen Sie zum Prüfen des HTTP-Statuscodes robots.txt
in Chrome und prüfen Sie die Anfrage in den Chrome-Entwicklertools.
robots.txt
muss kleiner als 500 KiB sein
Suchmaschinen können die Verarbeitung von robots.txt
während der Laufzeit beenden, wenn die Datei größer als 500 KiB ist. Das kann die Suchmaschine verwirren und dazu führen, dass Ihre Website nicht richtig gecrawlt wird.
Damit robots.txt
klein bleibt, konzentrieren Sie sich weniger auf einzeln ausgeschlossene Seiten, sondern mehr auf allgemeine Muster. Wenn du beispielsweise das Crawling von PDF-Dateien blockieren möchtest, solltest du nicht jede einzelne Datei verbieten. Schließen Sie stattdessen alle URLs mit .pdf
aus, indem Sie disallow: /*.pdf
verwenden.
Formatfehler beheben
- In
robots.txt
sind nur leere Zeilen, Kommentare und Anweisungen zulässig, die mit dem Format „name: value“ übereinstimmen. - Die Werte für
allow
unddisallow
müssen entweder leer sein oder mit/
oder*
beginnen. - Verwenden Sie
$
nicht in der Mitte eines Werts (z. B.allow: /file$html
).
Für user-agent
muss ein Wert festgelegt sein
User-Agent-Namen, um Suchmaschinen-Crawlern mitzuteilen, welche Anweisungen zu befolgen sind. Sie müssen für jede Instanz von user-agent
einen Wert angeben, damit Suchmaschinen wissen, ob die zugehörigen Anweisungen befolgt werden sollen.
Wenn Sie einen bestimmten Suchmaschinen-Crawler angeben möchten, verwenden Sie einen User-Agent-Namen aus der veröffentlichten Liste. Hier finden Sie beispielsweise die Liste der User-Agents, die für das Crawling verwendet werden.
Verwende *
, um eine Übereinstimmung mit allen anderen Crawlern abzugleichen.
user-agent: disallow: /downloads/
Kein User-Agent definiert.
user-agent: * disallow: /downloads/ user-agent: magicsearchbot disallow: /uploads/
Es sind ein allgemeiner User-Agent und ein magicsearchbot
-User-Agent definiert.
Es dürfen keine allow
- oder disallow
-Anweisungen vor user-agent
vorhanden sein
Die Namen der User-Agents definieren die Abschnitte der Datei robots.txt
. Suchmaschinen-Crawler verwenden diese Abschnitte, um zu bestimmen, welche Anweisungen zu befolgen sind. Wenn du eine Anweisung vor dem ersten User-Agent-Namen platzierst, wird ihr kein Crawler folgen.
# start of file disallow: /downloads/ user-agent: magicsearchbot allow: /
Kein Suchmaschinen-Crawler liest die Anweisung disallow: /downloads
.
# start of file user-agent: * disallow: /downloads/
Alle Suchmaschinen dürfen den Ordner /downloads
nicht crawlen.
Suchmaschinen-Crawler folgen nur den Anweisungen in dem Abschnitt mit dem spezifischsten User-Agent-Namen. Wenn du beispielsweise Anweisungen für user-agent: *
und user-agent: Googlebot-Image
hast, folgt der Googlebot-Images nur den Anweisungen im Abschnitt user-agent: Googlebot-Image
.
Geben Sie eine absolute URL für sitemap
an
Mit Sitemap-Dateien können Sie Suchmaschinen hervorragend über Seiten Ihrer Website informieren. Eine Sitemap-Datei enthält in der Regel eine Liste der URLs auf deiner Website sowie Informationen zum Zeitpunkt der letzten Änderung.
Wenn du eine Sitemap-Datei in robots.txt
einreichen möchtest, verwende eine absolute URL.
sitemap: /sitemap-file.xml
sitemap: https://example.com/sitemap-file.xml