Clustering-Workflow

So clustern Sie Ihre Daten:

  1. Daten vorbereiten.
  2. Ähnlichkeitsmesswert erstellen
  3. Clustering-Algorithmus ausführen
  4. Interpretieren Sie die Ergebnisse und passen Sie die Clusterung an.

Auf dieser Seite werden die Schritte kurz vorgestellt. In den folgenden Abschnitten gehen wir darauf näher ein.

Daten vorbereiten

Wie bei jedem ML-Problem müssen Sie Merkmaldaten normalisieren, skalieren und transformieren, bevor Sie ein Modell mit diesen Daten trainieren oder optimieren. Prüfen Sie vor dem Clustern außerdem, ob Sie mit den vorbereiteten Daten die Ähnlichkeit zwischen Beispielen genau berechnen können.

Ähnlichkeitsmesswert erstellen

Bevor ein Clustering-Algorithmus Daten gruppieren kann, muss er wissen, wie ähnlich sich Beispielpaare sind. Sie können die Ähnlichkeit zwischen Beispielen quantifizieren, indem Sie einen Ähnlichkeitsmesswert erstellen. Dazu ist ein genaues Verständnis Ihrer Daten erforderlich.

Clustering-Algorithmus ausführen

Ein Clustering-Algorithmus verwendet den Ähnlichkeitsmesswert, um Daten zu clustern. In diesem Kurs wird k-Means verwendet.

Ergebnisse interpretieren und anpassen

Da beim Clustern keine Ground Truth erstellt oder enthalten ist, anhand derer Sie die Ausgabe überprüfen können, ist es wichtig, das Ergebnis sowohl auf Clusterebene als auch auf Beispielebene mit Ihren Erwartungen abzugleichen. Wenn das Ergebnis seltsam aussieht oder von schlechter Qualität ist, wiederholen Sie die drei vorherigen Schritte. Wiederholen Sie diesen Vorgang, bis die Qualität der Ausgabe Ihren Anforderungen entspricht.