Glossar für maschinelles Lernen: Clustering

Diese Seite enthält Glossarbegriffe für das Clustering. Alle Glossarbegriffe finden Sie hier.

A

agglomeratives Clustering

#clustering

Siehe Hierarchisches Clustering.

C

Schwerpunkt

#clustering

Mittelpunkt eines Clusters, bestimmt durch einen k-Means- oder k-Median-Algorithmus. Wenn für k beispielsweise 3 steht, findet der k-Means- bzw. k-Median-Algorithmus 3 Schwerpunkte.

Schwerpunkt-basiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die Daten in nicht hierarchischen Clustern organisiert. k-Means ist der am häufigsten verwendete Schwerpunkt-basierte Clustering-Algorithmus.

Dies steht im Gegensatz zu Algorithmen des hierarchischen Clustering.

Clustering

#clustering

Gruppieren verwandter Beispiele, insbesondere beim unüberwachten Lernen Sobald alle Beispiele gruppiert sind, kann ein Mensch jedem Cluster optional eine Bedeutung verleihen.

Es gibt viele Clustering-Algorithmen. Die Beispiele für k-means-Algorithmuscluster basieren auf ihrer Nähe zu einem Schwerpunkt, wie im folgenden Diagramm dargestellt:

Eine zweidimensionale Grafik, in der die x-Achse mit der Baumbreite und die y-Achse mit der Baumhöhe beschriftet sind. Das Diagramm enthält zwei Schwerpunkte und mehrere Dutzend Datenpunkte. Die Datenpunkte werden nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte, die einem Schwerpunkt am nächsten sind, werden als Cluster 1 kategorisiert, während die Datenpunkte, die dem anderen Schwerpunkt am nächsten sind, als Cluster 2 kategorisiert werden.

Ein menschlicher Forscher könnte die Cluster dann überprüfen und Cluster 1 beispielsweise als „Zwergbäume“ und Cluster 2 als „Bäume in Originalgröße“ kennzeichnen.

Als weiteres Beispiel könnten Sie einen Clustering-Algorithmus betrachten, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert. Der Algorithmus ist wie folgt dargestellt:

Dutzende Datenpunkte sind in konzentrischen Kreisen angeordnet, die fast wie Löcher um die Mitte einer Dartscheibe herum angeordnet sind. Der innerste Ring von Datenpunkten wird als Cluster 1, der mittlere Ring als Cluster 2 und der äußerste Ring als Cluster 3 kategorisiert.

D

Diversitäts-Clustering

#clustering

Siehe Hierarchisches Clustering.

H

hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, die eine Clusterstruktur erstellen. Das hierarchische Clustering eignet sich gut für hierarchische Daten, z. B. für botanische Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim Agglomerative Clustering wird jedes Beispiel zuerst einem eigenen Cluster zugewiesen. Anschließend werden die nächstgelegenen Cluster iterativ zusammengeführt, um eine hierarchische Struktur zu erstellen.
  • Beim Divisive Clustering werden zuerst alle Beispiele in einem Cluster gruppiert und dieser wird dann iterativ in eine hierarchische Struktur unterteilt.

Kontrast mit schwerpunktbasiertem Clustering

K

K-Means

#clustering

Ein beliebter Clustering-Algorithmus, der Beispiele für unüberwachtes Lernen gruppiert. Der k-Means-Algorithmus funktioniert im Grunde:

  • Bestimmt iterativ die besten k Mittelpunkte (sogenannte Schwerpunkte).
  • Weist jedes Beispiel dem nächstgelegenen Schwerpunkt zu. Die Beispiele, die dem gleichen Schwerpunkt am nächsten liegen, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt Schwerpunktpositionen aus, um die kumulative Quadratzahl der Entfernungen zwischen den Beispielen und dem nächstgelegenen Schwerpunkt zu minimieren.

Betrachten Sie zum Beispiel das folgende Diagramm, das die Größe von Hunden zu der Hundebreite zeigt:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedes Beispiel wird dem nächstgelegenen Schwerpunkt zugewiesen, sodass drei Gruppen entstehen:

Dasselbe kartesische Diagramm wie in der vorherigen Abbildung, nur mit drei hinzugefügten Schwerpunkten.
          Die vorherigen Datenpunkte werden in drei verschiedene Gruppen geclustert, wobei jede Gruppe die Datenpunkte darstellt, die einem bestimmten Schwerpunkt am nächsten sind.

Stellen Sie sich vor, ein Hersteller möchte die idealen Größen für kleine, mittlere und große Pullover für Hunde ermitteln. Die drei Schwerpunkte identifizieren die mittlere Höhe und Breite der einzelnen Hunde im Cluster. Der Hersteller sollte also die Sweatergrößen auf diesen drei Schwerpunkten basieren. Beachten Sie, dass der Schwerpunkt eines Clusters normalerweise kein Beispiel im Cluster ist.

Die vorherigen Abbildungen zeigen k-Means für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Mit k-Means können Sie Beispiele für viele Funktionen gruppieren.

k-Medianwert

#clustering

Clustering-Algorithmus, der eng mit k-Means verwandt ist. Der praktische Unterschied zwischen den beiden ist folgende:

  • Bei k-Means werden Schwerpunkte durch Minimierung der Summe der Quadrate der Entfernung zwischen einem Schwerpunktkandidat und jedem seiner Beispiele bestimmt.
  • Im k-Median werden Schwerpunkte bestimmt, indem die Summe der Entfernung zwischen einem Schwerpunktkandidat und jedem seiner Beispiele minimiert wird.

Beachten Sie, dass die Definitionen für Entfernungen ebenfalls unterschiedlich sind:

  • k-means basiert auf der euklidischen Entfernung vom Schwerpunkt zu einem Beispiel. (In zwei Dimensionen bedeutet der euklidische Abstand, die Hypotenuse mit dem Satz des Pythagoras zu berechnen.) Die k-means-Entfernung zwischen (2,2) und (5,-2) würde beispielsweise so aussehen:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Der k-Medianwert basiert auf der Manhattan-Distanz vom Schwerpunkt zu einem Beispiel. Die Entfernung ist die Summe der absoluten Deltas in jeder Dimension. Der k-Medianwert zwischen (2,2) und (5,-2) würde beispielsweise so aussehen:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

Ähnlichkeitsmaß

#clustering

In den Clustering-Algorithmen wird anhand des Messwerts bestimmt, wie ähnlich (wie ähnlich) die beiden Beispiele sind.

Skizzieren

#clustering

Eine Kategorie von Algorithmen beim unüberwachten Machine Learning, die eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Zeichenalgorithmen verwenden eine ortsabhängige Hash-Funktion, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Buckets zu gruppieren.

Das Skizzieren reduziert den Rechenaufwand für Ähnlichkeitsberechnungen bei großen Datasets. Anstatt die Ähnlichkeit für jedes einzelne Paar von Beispielen im Dataset zu berechnen, berechnen wir die Ähnlichkeit nur für jedes Punktpaar in jedem Bucket.

T

Zeitreihenanalyse

#clustering

Ein Teilbereich des maschinellen Lernens und der Statistik, der zeitliche Daten analysiert. Viele Arten von Problemen beim maschinellen Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognosen und Anomalieerkennung. Mit der Zeitachsenanalyse können Sie beispielsweise den zukünftigen Umsatz von Wintermänteln nach Monat basierend auf historischen Verkaufsdaten prognostizieren.

U

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

model trainieren, um Muster in einem Dataset zu erkennen – in der Regel in einem Dataset ohne Label

Unüberwachtes maschinelles Lernen wird am häufigsten verwendet, um Daten in Gruppen ähnlicher Beispiele zu gruppieren. Beispielsweise kann ein Algorithmus für unbeaufsichtigtes maschinelles Lernen Songs anhand verschiedener Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen für maschinelles Lernen dienen (z. B. für einen Musikempfehlungsdienst). Clustering kann hilfreich sein, wenn nützliche Labels knapp sind oder fehlen. In Bereichen wie Missbrauch und Betrug können Cluster zum Beispiel Menschen helfen, die Daten besser zu verstehen.

Hier kommt überwachtes maschinelles Lernen zum Einsatz.