Manuelle Ähnlichkeitsmessung

Wie bereits gezeigt, werden bei K-Means Punkten der nächstgelegene Centroid zugewiesen. Aber was bedeutet „am nächsten“?

Wenn Sie K-Means auf Feature-Daten anwenden möchten, müssen Sie ein Ähnlichkeitsmaß definieren, das alle Feature-Daten in einem einzigen numerischen Wert kombiniert. Dieses Maß wird als manuelles Ähnlichkeitsmaß bezeichnet.

Nehmen wir als Beispiel einen Schuhdatensatz. Wenn dieser Datensatz nur die Schuhgröße als Merkmal hat, können Sie die Ähnlichkeit zweier Schuhe anhand des Unterschieds zwischen ihren Größen definieren. Je kleiner der numerische Unterschied zwischen den Größen ist, desto ähnlicher sind die Schuhe.

Wenn dieser Schuhdatensatz zwei numerische Merkmale hat, Größe und Preis, können Sie sie zu einer einzigen Zahl kombinieren, die die Ähnlichkeit darstellt. Skalieren Sie zuerst die Daten, damit beide Merkmale vergleichbar sind:

  • Größe: Die Schuhgröße folgt wahrscheinlich einer Gaußverteilung. Bestätigen Sie dies. Normalisieren Sie dann die Daten.
  • Preis (p): Die Daten folgen wahrscheinlich einer Poisson-Verteilung. Bestätigen Sie dies. Wenn Sie genügend Daten haben, konvertieren Sie sie in Quantile und skalieren Sie sie auf [0,1].

Kombinieren Sie als Nächstes die beiden Funktionen, indem Sie die Wurzel der mittleren Fehlerquadratsumme (RMSE) berechnen. Dieser grobe Ähnlichkeitsmaßstab wird durch(sisj)2+(pipj)22angegeben.

Berechnen Sie als einfaches Beispiel die Ähnlichkeit für zwei Schuhe mit den US-Größen 8 und 11 und den Preisen 120 und 150. Da wir nicht genügend Daten haben, um die Verteilung zu ermitteln, skalieren wir die Daten ohne Normalisierung oder Verwendung von Quantilen.

AktionMethode
Skalieren Sie die Größe. Angenommen, die maximale Schuhgröße ist 20. Teilen Sie 8 und 11 durch die maximale Größe 20, um 0,4 und 0,55 zu erhalten.
Skalieren Sie den Preis. Teilen Sie 120 und 150 durch den Maximalpreis 150.Sie erhalten 0,8 und 1.
Ermitteln Sie den Größenunterschied. 0.550.4=0.15
Ermitteln Sie den Preisunterschied. 10.8=0.2
Berechnen Sie die RMSE. 0.22+0.1522=0.17

Intuitiv sollte der Ähnlichkeitsmesswert steigen, wenn sich die Feature-Daten stärker ähneln. Stattdessen sinkt der Ähnlichkeitsmesswert (RMSE). Lassen Sie sich bei der Ähnlichkeitsmessung von Ihrer Intuition leiten, indem Sie den Wert von 1 abziehen.

Similarity=10.17=0.83

Sie können numerische Daten im Allgemeinen wie unter Daten vorbereiten beschrieben vorbereiten und dann mithilfe der euklidischen Entfernung kombinieren.

Was ist, wenn dieser Datensatz sowohl die Schuhgröße als auch die Schuhfarbe enthält? Farben sind kategorische Daten, die im Machine Learning Crash Course unter Mit kategorischen Daten arbeiten behandelt werden. Kategorische Daten lassen sich schwerer mit den numerischen Größendaten kombinieren. Mögliche Ursachen:

  • Eindeutig, z. B. die Farbe eines Autos („weiß“ oder „blau“, aber nie beides)
  • Mehrere Werte (mehrwertig), z. B. das Genre eines Films (ein Film kann sowohl „Action“ als auch „Komödie“ sein oder nur „Action“)

Wenn univalente Daten übereinstimmen, z. B. bei zwei Paaren blauer Schuhe, ist die Ähnlichkeit zwischen den Beispielen 1. Andernfalls ist die Ähnlichkeit 0.

Mit mehrdeutigen Daten wie Filmgenres ist es schwieriger. Wenn es eine feste Anzahl von Filmgenres gibt, kann die Ähnlichkeit anhand des Verhältnisses der gemeinsamen Werte berechnet werden. Dieser Wert wird als Jaccard-Ähnlichkeit bezeichnet. Beispielberechnungen der Jaccard-Ähnlichkeit:

  • [„comedy“, „action“] and [„comedy“, „action“] = 1
  • [„comedy“, „action“] und [„action“] = ½
  • [„Komödie“, „Action“] und [„Action“, „Drama“] = ⅓
  • [„Komödie“, „Action“] und [„Sachbuch“, „Biografie“] = 0

Der Jaccard-Ähnlichkeitskoeffizient ist nicht das einzige mögliche Maß für die manuelle Ähnlichkeit bei kategorischen Daten. Zwei weitere Beispiele:

  • Postleitzahlen können in Breiten- und Längengrade umgewandelt werden, bevor die euklidische Distanz zwischen ihnen berechnet wird.
  • Farbe kann in numerische RGB-Werte umgewandelt werden. Abweichungen bei den Werten werden in der euklidischen Entfernung zusammengefasst.

Weitere Informationen finden Sie unter Mit kategorischen Daten arbeiten.

Im Allgemeinen muss ein manueller Ähnlichkeitsmaß direkt der tatsächlichen Ähnlichkeit entsprechen. Wenn das nicht der Fall ist, werden die gewünschten Informationen nicht codiert.

Bearbeiten Sie Ihre Daten sorgfältig, bevor Sie ein Ähnlichkeitsmaß berechnen. Die Beispiele auf dieser Seite sind vereinfacht. Die meisten realen Datensätze sind groß und komplex. Wie bereits erwähnt, sind Quantile eine gute Standardauswahl für die Verarbeitung numerischer Daten.

Je komplexer die Daten sind, desto schwieriger wird es, ein manuelles Ähnlichkeitsmaß zu erstellen. In diesem Fall sollten Sie zu einem überwachten Ähnlichkeitsmaß wechseln, bei dem die Ähnlichkeit mithilfe eines überwachten Modells für maschinelles Lernen berechnet wird. Darauf wird später noch näher eingegangen.