Diese Seite wurde von der Cloud Translation API übersetzt.

Training zur manuellen Ähnlichkeitsmessung

In der folgenden Übung wird Schritt für Schritt erklärt, wie Sie manuell eine Ähnlichkeitsmessung erstellen.

Angenommen, Sie haben ein einfaches Dataset für Häuser:

Funktion	Typ
Preis	Positive Ganzzahl
Größe	Positiver Gleitkommawert in Einheiten von Quadratmetern
Postleitzahl	Ganzzahl
Anzahl der Schlafzimmer	Ganzzahl
Haustyp	Ein Textwert aus „Einzelfamilie“, „Mehrfamilienhaus“, „Wohnung“ oder „Eigentum“
Garage	0/1 für Nein/Ja
Farben	Multivalente Kategorie: ein oder mehrere Werte aus den Standardfarben „weiß“, „gelb“, „grün“ usw.

Vorverarbeitung

Der erste Schritt besteht darin, die numerischen Merkmale vorzuverarbeiten: Preis, Größe, Anzahl der Schlafzimmer und Postleitzahl. Für jedes dieser Features müssen Sie einen anderen Vorgang ausführen. Nehmen wir beispielsweise an, dass die Preisdaten einer bimodalen Verteilung folgen. Nächste Schritte

Was sollten Sie tun, wenn Ihre Daten einer bimodalen Verteilung folgen?

Quantile aus den Daten erstellen und auf [0,1] skalieren

Dies ist der richtige Schritt, wenn Daten einer bimodalen Verteilung folgen.

Logtransformation und Skalierung auf [0,1].

Dies ist der Schritt, der ausgeführt wird, wenn Daten einer Potenzverteilung folgen.

Normalisieren und auf [0,1] skalieren.

Diesen Schritt würden Sie ausführen, wenn die Daten einer Gauß-Verteilung folgen.

Geben Sie im Feld unten an, wie die Größendaten verarbeitet werden.

Ich würde die Größendaten so vorverarbeiten:

Klicke auf das Pluszeichen, um deine Antwort zu prüfen.

Überprüfen Sie, ob die Größe einer Potensen-, Poisson- oder Gauß-Verteilung entspricht.

Power-law: Logtransformation und Skalierung auf [0,1].
Poisson: Quantile erstellen und auf [0,1] skalieren.
Gaußscher: Normalisieren und auf [0,1] skalieren.

Geben Sie im Feld unten an, wie Sie Daten zur Anzahl der Schlafzimmer verarbeiten würden.

Ich würde die Anzahl der Schlafzimmer folgendermaßen vorverarbeiten:

Klicke auf das Pluszeichen, um deine Antwort zu prüfen.

Prüfen Sie die Verteilung der Schlafzimmer. Am wahrscheinlichsten sind Ausreißer und die Skalierung auf [0,1] ausreichend. Wenn Sie jedoch eine Potenzverteilung sehen, ist unter Umständen eine Logtransformation erforderlich.

Wie sollten Postleitzahlen dargestellt werden? Postleitzahlen in Längen- und Breitengrade umwandeln. Verarbeiten Sie diese Werte dann wie andere numerische Werte.

Ähnlichkeit pro Feature berechnen

Nun wird die Ähnlichkeit pro Element berechnet. Bei numerischen Merkmalen finden Sie einfach den Unterschied. Bei binären Merkmalen, z. B. wenn ein Haus einen Vorhang hat, können Sie auch die Differenz zwischen 0 und 1 ermitteln. Aber wie sieht es mit kategorialen Features aus? Beantworten Sie die Fragen unten, um es herauszufinden.

Welche dieser Funktionen ist multivalent (kann mehrere Werte haben)?

Farbe

Ein bestimmter Wohnraum kann mehr als eine Farbe haben, z. B. Blau mit weißer Ausstattung. Daher ist Farbe ein multivalentes Merkmal.

Postleitzahl

Jede Unterkunft kann nur eine Postleitzahl haben. Dies ist eine universelle Funktion.

Typ

Ihr Zuhause kann nur ein Typ, ein Haus, eine Wohnung oder eine Wohnung sein. Das bedeutet, dass es sich um ein universelles Element handelt.

Mit welcher Art von Ähnlichkeitsmessung solltest du die Ähnlichkeit für ein multivalentes Feature berechnen?

Ähnlichkeit mit Jaccard

Angenommen, einem Zuhause werden Farben aus einem festen Farbsatz zugewiesen. Berechnen Sie dann die Ähnlichkeit anhand des Verhältnissens gemeinsamer Werte (Jaccard-Ähnlichkeit).

Euklidischer Abstand

Für die Merkmale „Postleitzahl“ und „Typ“, die nur einen Wert haben (universelle Merkmale), ist die Ähnlichkeitsmessung 0, wenn das Element übereinstimmt. Andernfalls ist die Ähnlichkeitsmessung 1.

Ähnlichkeit insgesamt berechnen

Sie haben die Ähnlichkeit für jedes Feature numerisch berechnet. Der Clustering-Algorithmus erfordert jedoch eine ähnliche Ähnlichkeit mit Clusterhäusern. Berechnen Sie die Gesamtähnlichkeit zwischen zwei Häusern, indem Sie die Ähnlichkeit pro Feature mit dem Root Mean Squared Error (RMSE) pro Element kombinieren. Das heißt, wobei\(s_1,s_2,\ldots,s_N\) die Ähnlichkeiten für \(N\) Features darstellen:

\[\text{RMSE} = \sqrt{\frac{s_1^2+s_2^2+\ldots+s_N^2}{N}}\]

Einschränkungen der manuellen Ähnlichkeitsmessung

Wie aus dieser Übung hervorgeht, ist es zunehmend schwieriger, Daten zu verarbeiten und zu kombinieren, um Ähnlichkeiten semantisch sinnvoll zu messen. Berücksichtigen Sie die Farbdaten. Sollte die Farbe wirklich kategorisch sein? Oder sollten wir Farben wie Rot und Kastanienbraun zuweisen, um ihnen eine größere Ähnlichkeit als Schwarz und Weiß zu geben? Und für die Kombination von Daten haben wir die Garage-Funktion gleich mit dem Hauspreis gewichtet. Allerdings ist der Hauspreis viel wichtiger als eine Garage. Ist es wirklich sinnvoll, sie gleich zu gewichten?

Wenn Sie eine Ähnlichkeitsmessung erstellen, die die Ähnlichkeit zwischen den Beispielen nicht widerspiegelt, sind die abgeleiteten Cluster nicht aussagekräftig. Dies ist häufig bei kategorischen Daten der Fall, an dem wir dann eine beaufsichtigte Maßnahme durchführen.

Zurück

Manuelle Ähnlichkeitsmessung

Weiter

Übung zur manuellen Ähnlichkeitsprogrammierung