Ähnlichkeit von Einbettungen messen

Sie haben jetzt Einbettungen für jedes Beispielpaar. Bei einer superviseden Ähnlichkeitsmessung werden diese Einbettungen verwendet, um eine Zahl für ihre Ähnlichkeit zurückzugeben. Denken Sie daran, dass Einbettungen Vektoren von Zahlen sind. Um die Ähnlichkeit zwischen zwei Vektoren \(A = [a_1,a_2,...,a_n]\) und \(B = [b_1,b_2,...,b_n]\)zu ermitteln, wählen Sie eine der folgenden drei Ähnlichkeitsmaße aus:

MessenBedeutungFormel Je höher die Ähnlichkeit ist, desto…
Euklidischer AbstandAbstand zwischen den Enden von Vektoren \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) sinkt
KosinusKosinus des Winkels \(\theta\) zwischen Vektoren \(\frac{a^T b}{|a| \cdot |b|}\) erhöht
SkalarproduktKosinus multipliziert mit den Längen beider Vektoren \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) steigt. Er steigt auch mit der Länge der Vektoren.

Ähnlichkeitsmaß auswählen

Im Gegensatz zum Kosinus ist das Skalarprodukt proportional zur Vektorlänge. Das ist wichtig, weil Beispiele, die im Trainingssatz sehr häufig vorkommen (z. B. beliebte YouTube-Videos), in der Regel Einbettungsvektoren mit großer Länge haben. Wenn Sie die Beliebtheit erfassen möchten, wählen Sie die Punktproduktfunktion aus. Es besteht jedoch das Risiko, dass beliebte Beispiele den Ähnlichkeitsmesswert verfälschen. Um diesen Versatz auszugleichen, können Sie die Länge mit einem Exponenten multiplizieren \(\alpha\ < 1\) , um das Skalarprodukt als \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)zu berechnen.

Um besser zu verstehen, wie sich die Vektorlänge auf das Ähnlichkeitsmaß auswirkt, normalisieren Sie die Vektorlängen auf 1. Die drei Maße sind dann proportional zueinander.

Beweis: Proportionalität von Ähnlichkeitsmaßen
Nach der Normalisierung von a und b zu \(||a||=1\) und \(||b||=1\)sind diese drei Maße miteinander verknüpft:
  • Euklidische Distanz = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Skalarprodukt = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Kosinus = \(\cos(\theta_{ab})\).
Alle drei Ähnlichkeitsmaße sind also äquivalent, da sie proportional zu \(cos(\theta_{ab})\)sind.

Ähnlichkeitsmaße überprüfen

Mit einem Ähnlichkeitsmaß wird die Ähnlichkeit zwischen zwei Beispielen im Vergleich zu anderen Beispielpaaren quantifiziert. Die beiden Typen, manuell und mit Supervision, werden unten verglichen:

TypSo erstellen SieOptimal fürKonsequenzen
ManuellFeature-Daten manuell kombinieren Kleine Datensätze mit Funktionen, die sich einfach kombinieren lassen. Hier sehen Sie die Ergebnisse der Ähnlichkeitsberechnungen. Wenn sich die Feature-Daten ändern, müssen Sie das Ähnlichkeitsmaß manuell aktualisieren.
ÜberwachtEntfernung zwischen Einbettungen messen, die von einer überwachten DNN generiert wurden. Große Datensätze mit schwer kombinierbaren Funktionen Sie gibt keine Aufschluss über die Ergebnisse. Ein DNN kann sich jedoch automatisch an sich ändernde Feature-Daten anpassen.