Glossar für maschinelles Lernen: Clustering

Diese Seite enthält Begriffe aus dem Glossar zum Thema Clustering. Hier finden Sie alle Begriffe aus dem Glossar.

A

Agglomeratives Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

C

centroid

#clustering

Der Mittelpunkt eines Clusters, bestimmt durch einen k-Means- oder einen k-Median-Algorithmus. Wenn k beispielsweise 3 ist, werden mit dem k-Means- oder k-Median-Algorithmus drei Schwerpunkte gefunden.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Zentroidbasiertes Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen Daten in nicht hierarchische Cluster organisiert werden. K-Means ist der am häufigsten verwendete centroidbasierte Clustering-Algorithmus.

Im Gegensatz zu hierarchischen Clustering-Algorithmen

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

Clustering

#clustering

Gruppieren Sie ähnliche Beispiele, insbesondere beim unbeaufsichtigten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.

Es gibt viele Clustering-Algorithmen. Der K-Means-Algorithmus gruppiert beispielsweise Beispiele basierend auf ihrer Nähe zu einem Centroid, wie im folgenden Diagramm dargestellt:

Ein zweidimensionales Diagramm, in dem die X-Achse mit „Breite des Baums“ und die Y-Achse mit „Höhe des Baums“ beschriftet ist. Das Diagramm enthält zwei Centroide und mehrere Dutzend Datenpunkte. Die Datenpunkte werden nach ihrer Nähe kategorisiert. Das heißt, die Datenpunkte, die einem Clusterschwerpunkt am nächsten sind, werden als Cluster 1 kategorisiert, während die Datenpunkte, die dem anderen Clusterschwerpunkt am nächsten sind, als Cluster 2 kategorisiert werden.

Ein menschlicher Forscher könnte dann die Cluster überprüfen und Cluster 1 beispielsweise als „Zwergbäume“ und Cluster 2 als „Bäume in voller Größe“ kennzeichnen.

Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert. Das wird hier veranschaulicht:

Dutzende von Datenpunkten sind in konzentrischen Kreisen angeordnet, fast wie Löcher um den Mittelpunkt eines Dartbretts. Der innerste Ring der Datenpunkte wird als Cluster 1, der mittlere Ring als Cluster 2 und der äußerste Ring als Cluster 3 kategorisiert.

Weitere Informationen finden Sie im Kurs zum Thema Clustering.

D

Divisive Clustering

#clustering

Weitere Informationen finden Sie unter hierarchisches Clustering.

H

Hierarchisches Clustering

#clustering

Eine Kategorie von Clustering-Algorithmen, mit denen ein Clusterbaum erstellt wird. Das hierarchische Clustering eignet sich gut für hierarchische Daten wie botanischen Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:

  • Beim Agglomerative Clustering wird zuerst jedem Beispiel ein eigener Cluster zugewiesen und dann werden die nächsten Cluster iterativ zusammengeführt, um einen hierarchischen Baum zu erstellen.
  • Beim Divisiven Clustering werden zuerst alle Beispiele in einen Cluster gruppiert und dann iterativ in ein hierarchisches Baumdiagramm unterteilt.

Im Gegensatz zum centroidbasierten Clustern.

Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.

K

K-Means

#clustering

Ein beliebter Clustering-Algorithmus, mit dem Beispiele im Rahmen des unbeaufsichtigten Lernens gruppiert werden. Der k-Means-Algorithmus führt im Grunde Folgendes aus:

  • Bestimmt iterativ die besten K-Zentrumspunkte (Schwerpunkte).
  • Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. Die Beispiele, die demselben Centroid am nächsten sind, gehören zur selben Gruppe.

Der k-Means-Algorithmus wählt die Schwerpunkte so aus, dass die Summe der Quadrate der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt minimiert wird.

Betrachten Sie beispielsweise das folgende Diagramm, in dem die Höhe von Hunden in Relation zu ihrer Breite dargestellt ist:

Ein kartesisches Diagramm mit mehreren Dutzend Datenpunkten.

Wenn k=3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. So ergeben sich drei Gruppen:

Das gleiche kartesische Diagramm wie in der vorherigen Abbildung, nur mit drei hinzugefügten Centroiden.
          Die vorherigen Datenpunkte sind in drei verschiedene Gruppen geclustert. Jede Gruppe stellt die Datenpunkte dar, die einem bestimmten Centroid am nächsten sind.

Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die durchschnittliche Höhe und Breite jedes Hundes in diesem Cluster an. Daher sollte der Hersteller die Pullovergrößen wahrscheinlich auf diesen drei Centroiden basieren. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.

Die vorherigen Abbildungen zeigen K-Means-Verfahren für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Hinweis: Mit K-Means können Beispiele über viele Features hinweg gruppiert werden.

K-Median

#clustering

Ein Clustering-Algorithmus, der eng mit k-Means verwandt ist. Die beiden unterscheiden sich in der Praxis so:

  • Bei K-Means werden die Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Kandidaten für den Schwerpunkt und den einzelnen Beispielen bestimmt.
  • Beim K-Median werden die Schwerpunkte durch Minimieren der Summe der Entfernung zwischen einem Kandidaten für den Schwerpunkt und jedem seiner Beispiele bestimmt.

Beachten Sie, dass sich auch die Definitionen für die Entfernung unterscheiden:

  • Bei der K-Means-Methode wird die euklidische Entfernung vom Schwerpunkt zu einem Beispiel verwendet. (In zwei Dimensionen bedeutet der euklidische Abstand, dass die Hypotenuse mit dem Satz des Pythagoras berechnet wird.) Die K-Means-Distanz zwischen (2,2) und (5,-2) würde beispielsweise so berechnet:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Beim k-Median wird die Manhattan-Distanz vom Schwerpunkt zu einem Beispiel verwendet. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Beispiel: Der K-Median-Abstand zwischen (2,2) und (5,-2) ist:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

Ähnlichkeitsmaß

#clustering

In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.

Skizzieren

#clustering

Unüberwachtes maschinelles Lernen: Eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Bei Skizzieralgorithmen wird eine lokalitätssensitive Hash-Funktion verwendet, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Bucket zu gruppieren.

Durch das Skizzieren wird die für Ähnlichkeitsberechnungen bei großen Datensätzen erforderliche Rechenleistung reduziert. Anstatt die Ähnlichkeit für jedes Beispielpaar im Dataset zu berechnen, wird sie nur für jedes Punktpaar innerhalb jedes Buckets berechnet.

T

Zeitreihenanalyse

#clustering

Ein Teilgebiet des maschinellen Lernens und der Statistik, bei dem zeitliche Daten analysiert werden. Viele Arten von Problemen mit maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Mithilfe einer Zeitreihenanalyse können Sie beispielsweise die zukünftigen Verkäufe von Wintermänteln nach Monat anhand von bisherigen Verkaufsdaten prognostizieren.

U

unüberwachtes maschinelles Lernen

#clustering
#fundamentals

Training eines Modells zum Finden von Mustern in einem Dataset, in der Regel einem nicht beschrifteten Dataset.

Die am häufigsten verwendete Methode für unbeaufsichtigtes maschinelles Lernen ist das Clustering von Daten in Gruppen ähnlicher Beispiele. Ein unüberwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen des maschinellen Lernens verwendet werden, z. B. für einen Musikempfehlungsservice. Clustering kann hilfreich sein, wenn nützliche Labels selten oder gar nicht vorhanden sind. In Bereichen wie Missbrauchs- und Betrugsprävention können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.

Im Gegensatz zu überwachtem maschinellem Lernen.