In der folgenden Übung wird Schritt für Schritt erklärt, wie Sie manuell eine Ähnlichkeitsmessung erstellen.
Angenommen, Sie haben ein einfaches Dataset für Häuser:
Funktion | Typ |
---|---|
Preis | Positive Ganzzahl |
Größe | Positiver Gleitkommawert in Einheiten von Quadratmetern |
Postleitzahl | Ganzzahl |
Anzahl der Schlafzimmer | Ganzzahl |
Haustyp | Ein Textwert aus „Einzelfamilie“, „Mehrfamilienhaus“, „Wohnung“ oder „Eigentum“ |
Garage | 0/1 für Nein/Ja |
Farben | Multivalente Kategorie: ein oder mehrere Werte aus den Standardfarben „weiß“, „gelb“, „grün“ usw. |
Vorverarbeitung
Der erste Schritt besteht darin, die numerischen Merkmale vorzuverarbeiten: Preis, Größe, Anzahl der Schlafzimmer und Postleitzahl. Für jedes dieser Features müssen Sie einen anderen Vorgang ausführen. Nehmen wir beispielsweise an, dass die Preisdaten einer bimodalen Verteilung folgen. Nächste Schritte
Geben Sie im Feld unten an, wie die Größendaten verarbeitet werden.
Geben Sie im Feld unten an, wie Sie Daten zur Anzahl der Schlafzimmer verarbeiten würden.
Wie sollten Postleitzahlen dargestellt werden? Postleitzahlen in Längen- und Breitengrade umwandeln. Verarbeiten Sie diese Werte dann wie andere numerische Werte.
Ähnlichkeit pro Feature berechnen
Nun wird die Ähnlichkeit pro Element berechnet. Bei numerischen Merkmalen finden Sie einfach den Unterschied. Bei binären Merkmalen, z. B. wenn ein Haus einen Vorhang hat, können Sie auch die Differenz zwischen 0 und 1 ermitteln. Aber wie sieht es mit kategorialen Features aus? Beantworten Sie die Fragen unten, um es herauszufinden.
Ähnlichkeit insgesamt berechnen
Sie haben die Ähnlichkeit für jedes Feature numerisch berechnet. Der Clustering-Algorithmus erfordert jedoch eine ähnliche Ähnlichkeit mit Clusterhäusern. Berechnen Sie die Gesamtähnlichkeit zwischen zwei Häusern, indem Sie die Ähnlichkeit pro Feature mit dem Root Mean Squared Error (RMSE) pro Element kombinieren. Das heißt, wobei\(s_1,s_2,\ldots,s_N\) die Ähnlichkeiten für \(N\) Features darstellen:
\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]
Einschränkungen der manuellen Ähnlichkeitsmessung
Wie aus dieser Übung hervorgeht, ist es zunehmend schwieriger, Daten zu verarbeiten und zu kombinieren, um Ähnlichkeiten semantisch sinnvoll zu messen. Berücksichtigen Sie die Farbdaten. Sollte die Farbe wirklich kategorisch sein? Oder sollten wir Farben wie Rot und Kastanienbraun zuweisen, um ihnen eine größere Ähnlichkeit als Schwarz und Weiß zu geben? Und für die Kombination von Daten haben wir die Garage-Funktion gleich mit dem Hauspreis gewichtet. Allerdings ist der Hauspreis viel wichtiger als eine Garage. Ist es wirklich sinnvoll, sie gleich zu gewichten?
Wenn Sie eine Ähnlichkeitsmessung erstellen, die die Ähnlichkeit zwischen den Beispielen nicht widerspiegelt, sind die abgeleiteten Cluster nicht aussagekräftig. Dies ist häufig bei kategorischen Daten der Fall, an dem wir dann eine beaufsichtigte Maßnahme durchführen.