Ergebnisse auswerten

Da Clustering unbeaufsichtigt ist, Ground Truth kann verifiziert werden Ergebnisse. Das Fehlen der Wahrheit erschwert die Qualitätsbewertung. Außerdem reale Datasets bieten normalerweise keine offensichtlichen Cluster von Beispielen, wie in der wie in Abbildung 1 dargestellt.

<ph type="x-smartling-placeholder">
</ph> Ein Diagramm, das drei klare Gruppen von Datenpunkten zeigt
Abbildung 1: Ein ideales Datendiagramm. Realdaten sehen selten so aus.

Stattdessen sehen reale Daten oft eher wie in Abbildung 2 aus, was es schwierig macht, eine visuelle Bewertung der Clustering-Qualität.

<ph type="x-smartling-placeholder">
</ph> Ein Diagramm mit zufälligen Datenpunkten
Abbildung 2: Realistischeres Datendiagramm

Es gibt jedoch Heuristiken und Best Practices, die Sie iterativ anwenden können, um die Qualität des Clusterings zu verbessern. Das folgende Flussdiagramm gibt Übersicht über die Bewertung der Clustering-Ergebnisse. Wir werden die einzelnen Schritt.

<ph type="x-smartling-placeholder">
</ph> Darstellung des Überprüfungsprozesses in einem Flussdiagramm
Klicken Sie hier, um eine größere Version dieses Diagramms anzuzeigen.

Schritt 1: Qualität des Clusterings bewerten

Überprüfen Sie zunächst, ob die Cluster erwartungsgemäß aussehen und die einander ähnlich sind und im selben Cluster erscheinen.

Sehen Sie sich dann die folgenden häufig verwendeten Messwerte an (keine vollständige Liste):

  • Clusterkardinalität
  • Clustergröße
  • Downstream-Leistung

Clusterkardinalität

Die Clusterkardinalität ist die Anzahl der Beispiele pro Cluster. Stellen Sie die Cluster-Kardinalität für alle Cluster und untersuchen Cluster, dass sie große Ausreißer sind. In Abbildung 2 wäre dies Cluster 5.

<ph type="x-smartling-placeholder">
</ph> Ein Balkendiagramm, das die Kardinalität zeigt
aus mehreren Clustern. Cluster 5 ist kleiner als der Rest.
Abbildung 2: Kardinalität mehrerer Cluster

Clustergröße

Die Clustergröße ist die Summe der Entfernungen von allen Beispielen in einem Cluster. zum Schwerpunkt des Clusters. Clustergröße für alle Cluster und und Ausreißer untersuchen. In Abbildung 3 ist Cluster 0 ein Ausreißer.

Berücksichtigen Sie auch die maximale oder durchschnittliche Entfernung von Beispielen. von Schwerpunkten und Cluster, um Ausreißer zu finden.

<ph type="x-smartling-placeholder">
</ph> Ein Balkendiagramm, das die Größenordnung von
          mehreren Clustern. Cluster 0 ist viel größer als die anderen. <ph type="x-smartling-placeholder">
</ph> Abbildung 3: Größe mehrerer Cluster

Magnitude und Kardinalität

Sie haben vielleicht bemerkt, dass eine höhere Cluster-Kardinalität Dies ist intuitiv nachvollziehbar, da je mehr Punkte in einer Cluster (Kardinalität), desto größer ist die wahrscheinliche Summe der Entfernungen Punkt vom Schwerpunkt (Magnitude) entfernt. Sie können auch anomale Cluster identifizieren, indem wir nach solchen suchen, bei denen diese Beziehung zwischen Kardinalität und Größe anders als bei anderen Clustern. In Abbildung 4 wird die Anpassung einer Linie Kardinalität und Größe deuten darauf hin, dass Cluster 0 anomal ist. (Cluster 5 ist ebenfalls weit von der Linie entfernt, aber wenn Cluster 0 weggelassen wurden, würde die angepasste Linie viel näher an Cluster 5 liegen.)

<ph type="x-smartling-placeholder">
</ph> Ein Streudiagramm mit
          zwischen der Kardinalität und der Größe
mehrerer Cluster. Eins
          der Cluster ein Ausreißer in
dem Diagramm ist. <ph type="x-smartling-placeholder">
</ph> Abbildung 4: Kardinalität im Vergleich zur Größe für die zuvor gezeigten Cluster.

Downstream-Leistung

Da Clustering-Ausgaben häufig in nachgelagerten ML-Systemen verwendet werden, sollten Sie prüfen, Die Leistung des nachgelagerten Modells verbessert sich, wenn sich der Clustering-Prozess ändert. So erhalten Sie eine reale Bewertung der Qualität Ihrer Clustering-Ergebnisse. auch wenn die Durchführung solcher Tests komplex und teuer sein kann.

Schritt 2: Ähnlichkeitsmesswert neu bewerten

Ihr Clustering-Algorithmus ist nur so gut wie Ihre Ähnlichkeitsmessung. Achten Sie darauf, gibt der Ähnlichkeitsmesswert sinnvolle Ergebnisse zurück. Eine schnelle Prüfung ist, identifizieren, von denen bekannt ist, dass sie mehr oder weniger ähnlich sind. Berechnen Sie den Ähnlichkeitsmaßs für jedes Beispielpaar und vergleichen Sie Ihre Ergebnisse mit Wissen: Paare ähnlicher Beispiele sollten eine höhere Ähnlichkeit haben. als Paare unterschiedlicher Beispiele.

Die Beispiele, die Sie zur stichprobenartigen Überprüfung Ihres Ähnlichkeitsmesswerts verwenden, sollten repräsentativ für das Dataset, sodass Sie sicher sein können, die Holds für alle Beispiele zu messen. Die Leistung Ihrer und die Ähnlichkeitsmessung, ob manuell oder beaufsichtigt, auf allen Dataset. Wenn Ihr Ähnlichkeitsmesswert in einigen Beispielen nicht einheitlich ist, werden nicht mit ähnlichen Beispielen geclustert.

Wenn Sie Beispiele mit ungenauen Ähnlichkeitswerten finden, wahrscheinlich nicht vollständig die Featuredaten erfasst, die diese unterscheiden, Beispiele. Experimentieren Sie mit dem Ähnlichkeitsmesswert, bis er mehr Ergebnisse liefert. und konsistente Ergebnisse liefern.

Schritt 3: Optimale Anzahl von Clustern ermitteln

Bei k-Means müssen Sie die Anzahl der Cluster \(k\) im Voraus festlegen. Wie ermitteln Sie ein optimales \(k\)? Versuchen Sie, den Algorithmus mit ansteigenden Werte von \(k\) und notieren Sie die Summe aller Clustergrößen. Als \(k\) nimmt zu, Cluster werden kleiner und die Gesamtentfernung der Punkte von Schwerpunkten nimmt ab. Diese Gesamtstrecke können wir als Verlust betrachten. Stellen Sie diesen Abstand zur Anzahl der Cluster dar.

Wie in Abbildung 5 zu sehen ist, steigt die Reduzierung der Verluste über einem bestimmten \(k\) mit steigenden \(k\). Verwenden Sie gegebenenfalls die \(k\) wo die Steigung zuerst eine drastische Veränderung aufweist. Dies wird als Ellbow-Methode ein. Für die dargestellt, liegt der optimale \(k\) Wert bei ungefähr 11. Wenn Sie eine detailliertere Beschreibung bevorzugen, Cluster, können Sie einen höheren \(k\)auswählen. Sehen Sie sich dazu dieses Diagramm an.

<ph type="x-smartling-placeholder">
</ph> Ein Diagramm, das den Verlust zeigt
im Vergleich zu den verwendeten Clustern. Der Verlust nimmt ab, wenn die Anzahl der Cluster zunimmt, bis
gleicht es etwa 10 Cluster an <ph type="x-smartling-placeholder">
</ph> Abbildung 5: Verlust im Vergleich zur Anzahl der Cluster

Fragen zur Fehlerbehebung

Wenn Sie im Laufe der Bewertung Probleme entdecken, bewerten Sie Ihre Daten neu. Vorbereitungsschritte und das gewählte Ähnlichkeitsmaß. Frag Folgendes:

  • Sind Ihre Daten angemessen skaliert?
  • Ist das Maß der Ähnlichkeit korrekt?
  • Führt Ihr Algorithmus semantisch sinnvolle Operationen mit den Daten aus?
  • Stimmen die Annahmen Ihres Algorithmus mit den Daten überein?