Training zur manuellen Ähnlichkeitsmessung

In der folgenden Übung wird Schritt für Schritt erklärt, wie Sie manuell eine Ähnlichkeitsmessung erstellen.

Angenommen, Sie haben ein einfaches Dataset für Häuser:

FunktionTyp
PreisPositive Ganzzahl
Größe Positiver Gleitkommawert in Einheiten von Quadratmetern
PostleitzahlGanzzahl
Anzahl der SchlafzimmerGanzzahl
HaustypEin Textwert aus „Einzelfamilie“, „Mehrfamilienhaus“, „Wohnung“ oder „Eigentum“
Garage0/1 für Nein/Ja
FarbenMultivalente Kategorie: ein oder mehrere Werte aus den Standardfarben „weiß“, „gelb“, „grün“ usw.

Vorverarbeitung

Der erste Schritt besteht darin, die numerischen Merkmale vorzuverarbeiten: Preis, Größe, Anzahl der Schlafzimmer und Postleitzahl. Für jedes dieser Features müssen Sie einen anderen Vorgang ausführen. Nehmen wir beispielsweise an, dass die Preisdaten einer bimodalen Verteilung folgen. Nächste Schritte

Was sollten Sie tun, wenn Ihre Daten einer bimodalen Verteilung folgen?
Quantile aus den Daten erstellen und auf [0,1] skalieren
Dies ist der richtige Schritt, wenn Daten einer bimodalen Verteilung folgen.
Logtransformation und Skalierung auf [0,1].
Dies ist der Schritt, der ausgeführt wird, wenn Daten einer Potenzverteilung folgen.
Normalisieren und auf [0,1] skalieren.
Diesen Schritt würden Sie ausführen, wenn die Daten einer Gauß-Verteilung folgen.

Geben Sie im Feld unten an, wie die Größendaten verarbeitet werden.

Geben Sie im Feld unten an, wie Sie Daten zur Anzahl der Schlafzimmer verarbeiten würden.

Wie sollten Postleitzahlen dargestellt werden? Postleitzahlen in Längen- und Breitengrade umwandeln. Verarbeiten Sie diese Werte dann wie andere numerische Werte.

Ähnlichkeit pro Feature berechnen

Nun wird die Ähnlichkeit pro Element berechnet. Bei numerischen Merkmalen finden Sie einfach den Unterschied. Bei binären Merkmalen, z. B. wenn ein Haus einen Vorhang hat, können Sie auch die Differenz zwischen 0 und 1 ermitteln. Aber wie sieht es mit kategorialen Features aus? Beantworten Sie die Fragen unten, um es herauszufinden.

Welche dieser Funktionen ist multivalent (kann mehrere Werte haben)?
Farbe
Ein bestimmter Wohnraum kann mehr als eine Farbe haben, z. B. Blau mit weißer Ausstattung. Daher ist Farbe ein multivalentes Merkmal.
Postleitzahl
Jede Unterkunft kann nur eine Postleitzahl haben. Dies ist eine universelle Funktion.
Typ
Ihr Zuhause kann nur ein Typ, ein Haus, eine Wohnung oder eine Wohnung sein. Das bedeutet, dass es sich um ein universelles Element handelt.
Mit welcher Art von Ähnlichkeitsmessung solltest du die Ähnlichkeit für ein multivalentes Feature berechnen?
Ähnlichkeit mit Jaccard
Angenommen, einem Zuhause werden Farben aus einem festen Farbsatz zugewiesen. Berechnen Sie dann die Ähnlichkeit anhand des Verhältnissens gemeinsamer Werte (Jaccard-Ähnlichkeit).
Euklidischer Abstand
Für die Merkmale „Postleitzahl“ und „Typ“, die nur einen Wert haben (universelle Merkmale), ist die Ähnlichkeitsmessung 0, wenn das Element übereinstimmt. Andernfalls ist die Ähnlichkeitsmessung 1.

Ähnlichkeit insgesamt berechnen

Sie haben die Ähnlichkeit für jedes Feature numerisch berechnet. Der Clustering-Algorithmus erfordert jedoch eine ähnliche Ähnlichkeit mit Clusterhäusern. Berechnen Sie die Gesamtähnlichkeit zwischen zwei Häusern, indem Sie die Ähnlichkeit pro Feature mit dem Root Mean Squared Error (RMSE) pro Element kombinieren. Das heißt, wobei\(s_1,s_2,\ldots,s_N\) die Ähnlichkeiten für \(N\) Features darstellen:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Einschränkungen der manuellen Ähnlichkeitsmessung

Wie aus dieser Übung hervorgeht, ist es zunehmend schwieriger, Daten zu verarbeiten und zu kombinieren, um Ähnlichkeiten semantisch sinnvoll zu messen. Berücksichtigen Sie die Farbdaten. Sollte die Farbe wirklich kategorisch sein? Oder sollten wir Farben wie Rot und Kastanienbraun zuweisen, um ihnen eine größere Ähnlichkeit als Schwarz und Weiß zu geben? Und für die Kombination von Daten haben wir die Garage-Funktion gleich mit dem Hauspreis gewichtet. Allerdings ist der Hauspreis viel wichtiger als eine Garage. Ist es wirklich sinnvoll, sie gleich zu gewichten?

Wenn Sie eine Ähnlichkeitsmessung erstellen, die die Ähnlichkeit zwischen den Beispielen nicht widerspiegelt, sind die abgeleiteten Cluster nicht aussagekräftig. Dies ist häufig bei kategorischen Daten der Fall, an dem wir dann eine beaufsichtigte Maßnahme durchführen.