Hinweis zu nicht unterstützten Regeln in robots.txt

Dienstag, 2. Juli 2019

Gestern haben wir bekannt gegeben, dass wir den robots.txt-Parser für Google zu Open Source machen. Das war ein aufregender Moment, der die Voraussetzungen für zukünftige Open-Source-Projekte in der Google Suche schafft. Feedback ist hilfreich und wir freuen uns, Fragen von Entwicklern und Webmasters zu beantworten. Eine Frage ist uns besonders aufgefallen und wird in diesem Beitrag beantwortet:
Warum ist kein Code-Handler für andere Regeln wie „crawl-delay“ im Code enthalten?

Der Internet-Entwurf, den wir gestern veröffentlicht haben, bietet eine erweiterbare Architektur für Regeln, die nicht Teil des Standards sind. Wenn ein Crawler also eine eigene Zeile wie unicorns: allowed unterstützen möchte, kann er das tun. Um zu zeigen, wie das in einem Parser aussehen würde, haben wir eine sehr allgemeine Zeile, eine Sitemap, in unseren Open-Source-robots.txt-Parser aufgenommen.

Bei der Open-Source-Bereitstellung unserer Parser-Bibliothek haben wir die Verwendung von robots.txt-Regeln analysiert. Insbesondere haben wir uns mit Regeln beschäftigt, die im Internetentwurf nicht unterstützt werden, z. B. crawl-delay, nofollow und noindex. Da diese Regeln nie von Google dokumentiert wurden, ist die Nutzung in Bezug auf den Googlebot sehr gering. Wie stellten fest, dass ihre Nutzung mit Ausnahme von 0,001 % aller robots.txt-Dateien im Internet im Widerspruch zu anderen Regeln stand. Diese Fehler beeinträchtigten die Präsenz von Websites in den Google-Suchergebnissen in einer Weise, die unserer Meinung nach von Webmastern nicht beabsichtigt war.

Zur Aufrechterhaltung eines funktionierenden Systems und zur Vorbereitung auf zukünftige Open-Source-Releases stellen wir am 1. September 2019 sämtlichen Code ein, der nicht unterstützte und nicht veröffentlichte Regeln wie noindex verarbeitet. Für diejenigen von euch, die sich auf die Indexierungsregel noindex in der Datei robots.txt verlassen haben, die das Crawling steuert, gibt es verschiedene andere Möglichkeiten:

  • noindex in robots-meta-Tags: Die noindex-Regel wird sowohl in den HTTP-Antwortheadern als auch in HTML unterstützt und ist am wirkungsvollsten dabei, URLs aus dem Index zu entfernen, wenn Crawling erlaubt ist.
  • 404- und 410-HTTP-Statuscodes: Beide Statuscodes bedeuten, dass die Seite nicht existiert, wodurch solche URLs aus dem Index von Google entfernt werden, sobald sie gecrawlt und verarbeitet wurden.
  • Passwortschutz: Wenn kein Markup zum Kennzeichnen von Abo- oder Paywall-Inhalten verwendet wird, wird eine Seite, die sich hinter einer Anmeldung befindet, üblicherweise aus dem Google-Index entfernt.
  • Disallow in robots.txt: Suchmaschinen können nur Seiten indexieren, die ihnen bekannt sind. Wenn das Crawlen einer Seite also blockiert wird, wird ihr Inhalt in der Regel nicht indexiert. Selbst wenn die Suchmaschine eine URL auch basierend auf Links von anderen Seiten indexieren kann, ohne den Inhalt selbst zu sehen, versuchen wir, solche Seiten in Zukunft weniger sichtbar zu machen.
  • Search Console-Tool zum Entfernen von URLs: Das Tool ist eine schnelle und einfache Methode, um eine URL vorübergehend aus den Google-Suchergebnissen zu entfernen.

Weitere Informationen zum Entfernen von Informationen aus den Google-Suchergebnissen findet ihr in unserer Hilfe. Wenn ihr Fragen habt, könnt ihr uns auf Twitter und in unserer Webmaster-Community sowohl offline als auch online erreichen.