Diese Seite enthält Begriffe aus dem Glossar zum Thema Clustering. Hier finden Sie alle Begriffe aus dem Glossar.
A
Agglomeratives Clustering
Weitere Informationen finden Sie unter hierarchisches Clustering.
C
centroid
Der Mittelpunkt eines Clusters, bestimmt durch einen k-Means- oder einen k-Median-Algorithmus. Wenn k beispielsweise 3 ist, werden mit dem k-Means- oder k-Median-Algorithmus drei Schwerpunkte gefunden.
Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.
Zentroidbasiertes Clustering
Eine Kategorie von Clustering-Algorithmen, mit denen Daten in nicht hierarchische Cluster organisiert werden. K-Means ist der am häufigsten verwendete centroidbasierte Clustering-Algorithmus.
Im Gegensatz zu hierarchischen Clustering-Algorithmen
Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.
Clustering
Gruppieren Sie ähnliche Beispiele, insbesondere beim unbeaufsichtigten Lernen. Sobald alle Beispiele gruppiert sind, kann ein Mensch optional jedem Cluster eine Bedeutung zuweisen.
Es gibt viele Clustering-Algorithmen. Der K-Means-Algorithmus gruppiert beispielsweise Beispiele basierend auf ihrer Nähe zu einem Centroid, wie im folgenden Diagramm dargestellt:
Ein menschlicher Forscher könnte dann die Cluster überprüfen und Cluster 1 beispielsweise als „Zwergbäume“ und Cluster 2 als „Bäume in voller Größe“ kennzeichnen.
Ein weiteres Beispiel ist ein Clustering-Algorithmus, der auf der Entfernung eines Beispiels von einem Mittelpunkt basiert. Das wird hier veranschaulicht:
Weitere Informationen finden Sie im Kurs zum Thema Clustering.
D
Divisive Clustering
Weitere Informationen finden Sie unter hierarchisches Clustering.
H
Hierarchisches Clustering
Eine Kategorie von Clustering-Algorithmen, mit denen ein Clusterbaum erstellt wird. Das hierarchische Clustering eignet sich gut für hierarchische Daten wie botanischen Taxonomien. Es gibt zwei Arten von hierarchischen Clustering-Algorithmen:
- Beim Agglomerative Clustering wird zuerst jedem Beispiel ein eigener Cluster zugewiesen und dann werden die nächsten Cluster iterativ zusammengeführt, um einen hierarchischen Baum zu erstellen.
- Beim Divisiven Clustering werden zuerst alle Beispiele in einen Cluster gruppiert und dann iterativ in ein hierarchisches Baumdiagramm unterteilt.
Im Gegensatz zum centroidbasierten Clustern.
Weitere Informationen finden Sie im Kurs „Clustering“ unter Clustering-Algorithmen.
K
K-Means
Ein beliebter Clustering-Algorithmus, mit dem Beispiele im Rahmen des unbeaufsichtigten Lernens gruppiert werden. Der k-Means-Algorithmus führt im Grunde Folgendes aus:
- Bestimmt iterativ die besten K-Zentrumspunkte (Schwerpunkte).
- Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. Die Beispiele, die demselben Centroid am nächsten sind, gehören zur selben Gruppe.
Der k-Means-Algorithmus wählt die Schwerpunkte so aus, dass die Summe der Quadrate der Entfernungen von jedem Beispiel zum nächstgelegenen Schwerpunkt minimiert wird.
Betrachten Sie beispielsweise das folgende Diagramm, in dem die Höhe von Hunden in Relation zu ihrer Breite dargestellt ist:
Wenn k=3 ist, bestimmt der k-Means-Algorithmus drei Schwerpunkte. Jedem Beispiel wird der nächstgelegene Schwerpunkt zugewiesen. So ergeben sich drei Gruppen:
Angenommen, ein Hersteller möchte die idealen Größen für kleine, mittelgroße und große Pullover für Hunde ermitteln. Die drei Schwerpunkte geben die durchschnittliche Höhe und Breite jedes Hundes in diesem Cluster an. Daher sollte der Hersteller die Pullovergrößen wahrscheinlich auf diesen drei Centroiden basieren. Der Schwerpunkt eines Clusters ist in der Regel kein Beispiel im Cluster.
Die vorherigen Abbildungen zeigen K-Means-Verfahren für Beispiele mit nur zwei Merkmalen (Höhe und Breite). Hinweis: Mit K-Means können Beispiele über viele Features hinweg gruppiert werden.
K-Median
Ein Clustering-Algorithmus, der eng mit k-Means verwandt ist. Die beiden unterscheiden sich in der Praxis so:
- Bei K-Means werden die Schwerpunkte durch Minimieren der Summe der Quadrate der Entfernung zwischen einem Kandidaten für den Schwerpunkt und den einzelnen Beispielen bestimmt.
- Beim K-Median werden die Schwerpunkte durch Minimieren der Summe der Entfernung zwischen einem Kandidaten für den Schwerpunkt und jedem seiner Beispiele bestimmt.
Beachten Sie, dass sich auch die Definitionen für die Entfernung unterscheiden:
- Bei der K-Means-Methode wird die euklidische Entfernung vom Schwerpunkt zu einem Beispiel verwendet. (In zwei Dimensionen bedeutet der euklidische Abstand, dass die Hypotenuse mit dem Satz des Pythagoras berechnet wird.) Die K-Means-Distanz zwischen (2,2) und (5,-2) würde beispielsweise so berechnet:
- Beim k-Median wird die Manhattan-Distanz vom Schwerpunkt zu einem Beispiel verwendet. Dieser Abstand ist die Summe der absoluten Deltas in jeder Dimension. Beispiel: Der K-Median-Abstand zwischen (2,2) und (5,-2) ist:
S
Ähnlichkeitsmaß
In Clustering-Algorithmen wird mit diesem Messwert bestimmt, wie ähnlich sich zwei Beispiele sind.
Skizzieren
Unüberwachtes maschinelles Lernen: Eine Kategorie von Algorithmen, die eine vorläufige Ähnlichkeitsanalyse an Beispielen durchführen. Bei Skizzieralgorithmen wird eine lokalitätssensitive Hash-Funktion verwendet, um Punkte zu identifizieren, die wahrscheinlich ähnlich sind, und sie dann in Bucket zu gruppieren.
Durch das Skizzieren wird die für Ähnlichkeitsberechnungen bei großen Datensätzen erforderliche Rechenleistung reduziert. Anstatt die Ähnlichkeit für jedes Beispielpaar im Dataset zu berechnen, wird sie nur für jedes Punktpaar innerhalb jedes Buckets berechnet.
T
Zeitreihenanalyse
Ein Teilgebiet des maschinellen Lernens und der Statistik, bei dem zeitliche Daten analysiert werden. Viele Arten von Problemen mit maschinellem Lernen erfordern eine Zeitreihenanalyse, einschließlich Klassifizierung, Clustering, Prognose und Anomalieerkennung. Mithilfe einer Zeitreihenanalyse können Sie beispielsweise die zukünftigen Verkäufe von Wintermänteln nach Monat anhand von bisherigen Verkaufsdaten prognostizieren.
U
unüberwachtes maschinelles Lernen
Training eines Modells zum Finden von Mustern in einem Dataset, in der Regel einem nicht beschrifteten Dataset.
Die am häufigsten verwendete Methode für unbeaufsichtigtes maschinelles Lernen ist das Clustering von Daten in Gruppen ähnlicher Beispiele. Ein unüberwachter Algorithmus für maschinelles Lernen kann beispielsweise Songs basierend auf verschiedenen Eigenschaften der Musik gruppieren. Die resultierenden Cluster können als Eingabe für andere Algorithmen des maschinellen Lernens verwendet werden, z. B. für einen Musikempfehlungsservice. Clustering kann hilfreich sein, wenn nützliche Labels selten oder gar nicht vorhanden sind. In Bereichen wie Missbrauchs- und Betrugsprävention können Cluster beispielsweise Menschen helfen, die Daten besser zu verstehen.
Im Gegensatz zu überwachtem maschinellem Lernen.