Was ist Clustering?

Angenommen, Sie arbeiten mit einem Dataset, das Patienteninformationen aus einer Gesundheitssystem gesprochen. Das Dataset ist komplex und umfasst sowohl kategoriale als auch numerische Merkmale. Sie möchten Muster und Ähnlichkeiten im Dataset finden. Wie könnten Sie diese Aufgabe angehen?

Clustering ist ein unbeaufsichtigtes maschinelles Lernen, das dazu dient, Beispiele ohne Label basierend auf ihrer Ähnlichkeit zueinander. (Wenn die Beispiele beschriftet sind, Art der Gruppierung wird als Klassifizierung). Stellen Sie sich einen hypothetischen Patienten vor Studie zur Evaluierung eines neuen Behandlungsprotokolls. Während der Studie erkrankten die Erkrankten berichten, wie oft sie pro Woche Symptome haben und wie stark die Symptome auftreten. Forschende können mithilfe der Clustering-Analyse Patienten mit ähnlichen Behandlungsreaktionen in Clustern gruppieren. Abbildung 1 zeigt eine mögliche Gruppierung simulierten Daten in drei Clustern.

<ph type="x-smartling-placeholder">
</ph> Links ein Diagramm mit dem Schweregrad und der Anzahl der Symptome
   Datenpunkte, die drei Cluster vorschlagen.
   Rechts sehen Sie dasselbe Diagramm, aber jeder der drei Cluster ist farblich markiert.
Abbildung 1: Beispiele ohne Label, gruppiert in drei Clustern (simulierte Daten).

Bei den Daten ohne Label links in Abbildung 1 könnten Sie vermuten, dass bilden die Daten drei Cluster, auch ohne eine formale Definition von Ähnlichkeit zwischen Datenpunkten. In der Praxis müssen Sie jedoch explizit ein Ähnlichkeitsmaß oder den Messwert, der für den Vergleich von Stichproben verwendet wird, in der Funktionen des Datasets. Wenn die Beispiele nur wenige Funktionen enthalten, ist das Visualisieren und Messen von Ähnlichkeiten unkompliziert. Aber da die Anzahl der Funktionen zunimmt, wird das Kombinieren und Vergleichen von Funktionen weniger intuitiv. und komplexer sind. Verschiedene Ähnlichkeitsmaßstäbe können geeigneter sein oder weniger geeignet sein Clustering-Szenarien erstellen. In diesem Kurs geht es um die Auswahl eines entsprechenden Ähnlichkeitsmaßstab: Manuelle Ähnlichkeitsmessungen und Ähnlichkeitsmesswert von Einbettungen:

Nach dem Clustering wird jeder Gruppe ein eindeutiges Label zugewiesen, das als Cluster-ID bezeichnet wird. Clustering ist leistungsstark, da es große, komplexe Datasets mit mehreren Features zu einer einzelnen Cluster-ID.

Clustering-Anwendungsfälle

Clustering ist für eine Vielzahl von Branchen nützlich. Einige gängige Anwendungen für Clustering:

  • Marktsegmentierung
  • Analyse sozialer Netzwerke
  • Gruppierung von Suchergebnissen
  • Medizinische Bildgebung
  • Bildsegmentierung
  • Anomalieerkennung

Hier einige konkrete Beispiele für Clustering:

  • Das Hertzsprung-Russell-Diagramm zeigt Sternhaufen, wenn sie nach Leuchtkraft und Temperatur dargestellt werden.
  • Gensequenzierung, die zuvor unbekannte genetische Ähnlichkeiten und Unterschiede zwischen den Arten haben zu einer Überarbeitung der Taxonomien geführt. basierend auf dem Aussehen.
  • Die Big 5 von Persönlichkeitsmerkmalen wurde entwickelt, indem Wörter gruppiert wurden, die Persönlichkeit in 5 Gruppen. Die HEXAKO verwendet 6 Cluster anstelle von 5.

Imputation

Wenn bei einigen Beispielen in einem Cluster Featuredaten fehlen, können Sie den Wert ableiten, fehlende Daten aus anderen Beispielen im Cluster. Dies wird als Imputation. Beispielsweise können weniger beliebte Videos mit beliebteren Videos gruppiert werden. um die Videoempfehlungen zu verbessern.

Datenkompression

Wie besprochen, kann die entsprechende Cluster-ID andere Features für alle in diesem Cluster. Diese Ersetzung reduziert die Anzahl der Features und reduziert dadurch auch die Ressourcen, die zum Speichern, Verarbeiten und Trainieren von Modellen erforderlich sind. für diese Daten. Bei sehr großen Datasets ergeben sich diese Einsparungen erheblich.

Ein einzelnes YouTube-Video kann beispielsweise folgende Funktionsdaten enthalten:

  • Standort, Zeit und demografische Merkmale der Zuschauer
  • Zeitstempel, Text und Nutzer-IDs von Kommentaren
  • Video-Tags

Das Clustering von YouTube-Videos ersetzt diese Funktionen durch ein einzelne Cluster-ID zu erhalten, und die Daten werden komprimiert.

Wahrung des Datenschutzes

Sie können den Datenschutz ein wenig wahren, indem Sie Nutzer gruppieren und Nutzerdaten zuordnen mit Cluster-IDs statt Nutzer-IDs. Ein mögliches Beispiel wäre, zum Trainieren eines Modells auf dem Wiedergabeverlauf. Anstatt Nutzer-IDs zu übergeben, an das Modell zu senden, könnten Sie Nutzer gruppieren und nur die Cluster-ID übergeben. Dieses verhindert, dass der Wiedergabeverlauf einzelnen Nutzern zugeordnet wird. Hinweis dass der Cluster eine ausreichende Anzahl von Nutzern enthalten muss, um die Privatsphäre zu wahren.