Da Clustering unbeaufsichtigt ist, Ground Truth kann verifiziert werden Ergebnisse. Das Fehlen der Wahrheit erschwert die Qualitätsbewertung. Außerdem reale Datasets bieten normalerweise keine offensichtlichen Cluster von Beispielen, wie in der wie in Abbildung 1 dargestellt.
<ph type="x-smartling-placeholder">Stattdessen sehen reale Daten oft eher wie in Abbildung 2 aus, was es schwierig macht, eine visuelle Bewertung der Clustering-Qualität.
<ph type="x-smartling-placeholder">Es gibt jedoch Heuristiken und Best Practices, die Sie iterativ anwenden können, um die Qualität des Clusterings zu verbessern. Das folgende Flussdiagramm gibt Übersicht über die Bewertung der Clustering-Ergebnisse. Wir werden die einzelnen Schritt.
<ph type="x-smartling-placeholder">Schritt 1: Qualität des Clusterings bewerten
Überprüfen Sie zunächst, ob die Cluster erwartungsgemäß aussehen und die einander ähnlich sind und im selben Cluster erscheinen.
Sehen Sie sich dann die folgenden häufig verwendeten Messwerte an (keine vollständige Liste):
- Clusterkardinalität
- Clustergröße
- Downstream-Leistung
Clusterkardinalität
Die Clusterkardinalität ist die Anzahl der Beispiele pro Cluster. Stellen Sie die Cluster-Kardinalität für alle Cluster und untersuchen Cluster, dass sie große Ausreißer sind. In Abbildung 2 wäre dies Cluster 5.
<ph type="x-smartling-placeholder">Clustergröße
Die Clustergröße ist die Summe der Entfernungen von allen Beispielen in einem Cluster. zum Schwerpunkt des Clusters. Clustergröße für alle Cluster und und Ausreißer untersuchen. In Abbildung 3 ist Cluster 0 ein Ausreißer.
Berücksichtigen Sie auch die maximale oder durchschnittliche Entfernung von Beispielen. von Schwerpunkten und Cluster, um Ausreißer zu finden.
<ph type="x-smartling-placeholder">Magnitude und Kardinalität
Sie haben vielleicht bemerkt, dass eine höhere Cluster-Kardinalität Dies ist intuitiv nachvollziehbar, da je mehr Punkte in einer Cluster (Kardinalität), desto größer ist die wahrscheinliche Summe der Entfernungen Punkt vom Schwerpunkt (Magnitude) entfernt. Sie können auch anomale Cluster identifizieren, indem wir nach solchen suchen, bei denen diese Beziehung zwischen Kardinalität und Größe anders als bei anderen Clustern. In Abbildung 4 wird die Anpassung einer Linie Kardinalität und Größe deuten darauf hin, dass Cluster 0 anomal ist. (Cluster 5 ist ebenfalls weit von der Linie entfernt, aber wenn Cluster 0 weggelassen wurden, würde die angepasste Linie viel näher an Cluster 5 liegen.)
<ph type="x-smartling-placeholder">Downstream-Leistung
Da Clustering-Ausgaben häufig in nachgelagerten ML-Systemen verwendet werden, sollten Sie prüfen, Die Leistung des nachgelagerten Modells verbessert sich, wenn sich der Clustering-Prozess ändert. So erhalten Sie eine reale Bewertung der Qualität Ihrer Clustering-Ergebnisse. auch wenn die Durchführung solcher Tests komplex und teuer sein kann.
Schritt 2: Ähnlichkeitsmesswert neu bewerten
Ihr Clustering-Algorithmus ist nur so gut wie Ihre Ähnlichkeitsmessung. Achten Sie darauf, gibt der Ähnlichkeitsmesswert sinnvolle Ergebnisse zurück. Eine schnelle Prüfung ist, identifizieren, von denen bekannt ist, dass sie mehr oder weniger ähnlich sind. Berechnen Sie den Ähnlichkeitsmaßs für jedes Beispielpaar und vergleichen Sie Ihre Ergebnisse mit Wissen: Paare ähnlicher Beispiele sollten eine höhere Ähnlichkeit haben. als Paare unterschiedlicher Beispiele.
Die Beispiele, die Sie zur stichprobenartigen Überprüfung Ihres Ähnlichkeitsmesswerts verwenden, sollten repräsentativ für das Dataset, sodass Sie sicher sein können, die Holds für alle Beispiele zu messen. Die Leistung Ihrer und die Ähnlichkeitsmessung, ob manuell oder beaufsichtigt, auf allen Dataset. Wenn Ihr Ähnlichkeitsmesswert in einigen Beispielen nicht einheitlich ist, werden nicht mit ähnlichen Beispielen geclustert.
Wenn Sie Beispiele mit ungenauen Ähnlichkeitswerten finden, wahrscheinlich nicht vollständig die Featuredaten erfasst, die diese unterscheiden, Beispiele. Experimentieren Sie mit dem Ähnlichkeitsmesswert, bis er mehr Ergebnisse liefert. und konsistente Ergebnisse liefern.
Schritt 3: Optimale Anzahl von Clustern ermitteln
Bei k-Means müssen Sie die Anzahl der Cluster \(k\) im Voraus festlegen. Wie ermitteln Sie ein optimales \(k\)? Versuchen Sie, den Algorithmus mit ansteigenden Werte von \(k\) und notieren Sie die Summe aller Clustergrößen. Als \(k\) nimmt zu, Cluster werden kleiner und die Gesamtentfernung der Punkte von Schwerpunkten nimmt ab. Diese Gesamtstrecke können wir als Verlust betrachten. Stellen Sie diesen Abstand zur Anzahl der Cluster dar.
Wie in Abbildung 5 zu sehen ist, steigt die Reduzierung der Verluste über einem bestimmten \(k\) mit steigenden \(k\). Verwenden Sie gegebenenfalls die \(k\) wo die Steigung zuerst eine drastische Veränderung aufweist. Dies wird als Ellbow-Methode ein. Für die dargestellt, liegt der optimale \(k\) Wert bei ungefähr 11. Wenn Sie eine detailliertere Beschreibung bevorzugen, Cluster, können Sie einen höheren \(k\)auswählen. Sehen Sie sich dazu dieses Diagramm an.
<ph type="x-smartling-placeholder">Fragen zur Fehlerbehebung
Wenn Sie im Laufe der Bewertung Probleme entdecken, bewerten Sie Ihre Daten neu. Vorbereitungsschritte und das gewählte Ähnlichkeitsmaß. Frag Folgendes:
- Sind Ihre Daten angemessen skaliert?
- Ist das Maß der Ähnlichkeit korrekt?
- Führt Ihr Algorithmus semantisch sinnvolle Operationen mit den Daten aus?
- Stimmen die Annahmen Ihres Algorithmus mit den Daten überein?