Crawling im Dezember: Facettensuche

Dienstag, 17. Dezember 2024

Wir haben gerade ein neues Dokument zu Best Practices für die Facettensuche veröffentlicht, das ursprünglich als Blogpost veröffentlicht wurde. Hier eine Zusammenfassung einiger wichtiger Elemente der neuen Dokumentationsseite.

Die Facettensuche ist eine gute Möglichkeit, Nutzern zu helfen, auf eurer Website das Gesuchte zu finden. Bei unsachgemäßer Implementierung kann sie jedoch zu ernsten SEO-Problemen führen. Warum? Weil sie eine nahezu unbegrenzte Anzahl von URLs generieren kann, was zu folgenden Problemen führen kann:

  • Übermäßiges Crawling: Suchmaschinen verschwenden Zeit, indem sie unzählige URLs crawlen, die für Suchende nicht relevant sind.
  • Langsamere Entdeckung: Durch das übermäßige Crawling werden wichtige neue Inhalte langsamer entdeckt.

Die Facettensuche ist die mit Abstand häufigste Ursache für Probleme mit zu häufigem Crawling, die uns von Websiteinhabern gemeldet werden. In den meisten Fällen hätte das Problem vermieden werden können, wenn einige Best Practices befolgt worden wären. Aber gehen wir noch einmal einen Schritt zurück.

Das Problem mit URLs

Für jede Filterkombination in einer Facettensuche wird in der Regel eine eindeutige URL erstellt. Beispiel:

https://example.com/items.shtm?products=fish&color=radioactive_green&size=tiny

Wenn ihr einen Parameter ändert – product, color oder size –, wird eine neue URL erstellt. Das kann zu einer Explosion der URLs führen. Und das ist das Problem: eine nahezu unendliche Anzahl neuer URLs, die darauf warten, entdeckt zu werden. Lasst uns das beheben.

Zwei Ansätze

  1. Facettensuche-URLs blockieren:
    • Wenn diese URLs nicht indexiert werden sollen, verwendet robots.txt, um das Crawling zu unterbinden.
    • Ihr könnt auch URL-Fragmente (#) für Filter verwenden, da sie von Suchmaschinen im Allgemeinen ignoriert werden.
  2. Facettensuche-URLs optimieren (wenn sie gecrawlt werden müssen, unabhängig von den Kosten):
    • Verwendet das Standard-Trennzeichen & für URL-Parameter. 💩 ist kein geeignetes Parametertrennzeichen.
    • Achtet darauf, dass die Filter im URL-Pfad in einer konsistenten Reihenfolge angegeben sind.
    • Gebt den Statuscode 404 für Filterkombinationen zurück, die keine Ergebnisse liefern.
    • Sofern ihr keine anderen Optionen habt (z. B. wenn ihr eine App mit nur einer Seite habt), solltet ihr bei leeren Ergebnissen nicht zu einer generischen „Nicht gefunden“-Seite weiterleiten.

Wichtige Überlegungen

  • Ihr könnt rel="canonical" auch verwenden, um Signale zu konsolidieren, indem ihr Varianten auf eine Hauptseite verweist. Es dauert einige Zeit, bis dies berücksichtigt wird.
  • rel="nofollow" in Filterlinks kann das Crawling einschränken, es muss aber konsistent angewendet werden. Das bedeutet, dass jeder Link, der auf diese Seiten verweist, intern oder extern, ein rel="nofollow"-Attribut haben muss.
  • Das Crawlen von Facettensuche-URLs verbraucht immer Serverressourcen und kann sich auf die Erkennung neuer Inhalte auswirken.

Wenn ihr Vorschläge oder Fragen zu unserem neuen Dokument zu Best Practices für die Facettensuche habt, könnt ihr das Feedback-Tool im Dokument verwenden. Wenn ihr euch für die Facettensuche interessiert und darüber mit anderen sprechen möchtet, ist die Search Central-Community die richtige Anlaufstelle. Ihr findet uns aber auch auf LinkedIn.


Möchten Sie mehr über das Crawling erfahren? Hier finden Sie die gesamte Crawling-Dezember-Reihe: