Ähnlichkeit von Einbettungen messen

Sie haben jetzt Einbettungen für jedes Beispielpaar. Eine überwachte Ähnlichkeit "measure" nimmt diese Einbettungen auf und gibt eine Zahl zurück, die ihre Ähnlichkeit misst. Denken Sie daran, dass Einbettungen Vektoren von Zahlen sind. Um die Ähnlichkeit zwischen zwei Vektoren \(A = [a_1,a_2,...,a_n]\) und \(B = [b_1,b_2,...,b_n]\), wählen Sie eines dieser drei Ähnlichkeitsmaße aus:

MessenBedeutungFormel Mit zunehmender Ähnlichkeit...
Euklidischer AbstandAbstand zwischen den Enden von Vektoren \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Verringert
KosinusKosinus des Winkels \(\theta\) zwischen Vektoren \(\frac{a^T b}{|a| \cdot |b|}\) Steigerungen
SkalarproduktKosinus multipliziert mit der Länge beider Vektoren \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Erhöht sich. Erhöht sich auch mit der Länge der Vektoren.

Ähnlichkeitsmesswert auswählen

Im Gegensatz zum Kosinus ist das Punktprodukt proportional zur Vektorlänge. Das ist wichtig, weil Beispiele, die sehr häufig im Training vorkommen, wie beliebte YouTube-Videos, weisen meist Einbettungsvektoren mit sehr lang sind. Wenn Sie die Beliebtheit erfassen möchten, und wählen Sie ein Punktprodukt. Es besteht jedoch das Risiko, beliebte Beispiele den Ähnlichkeitswert verfälschen können. Um diese Verzerrung auszugleichen, können Sie die Länge auf einen Exponenten erhöhen, \(\alpha\ < 1\) um das Skalarprodukt zu berechnen als \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Um besser zu verstehen, wie die Vektorlänge das Ähnlichkeitsmaß ändert, Vektorlängen auf 1 und stellen Sie fest, dass die drei Maße proportional werden. miteinander kommunizieren.

Beweis: Proportionalitätsmessungen für Ähnlichkeit
Nach der Normalisierung von a und b, sodass \(||a||=1\) und \(||b||=1\) beziehen sich diese drei Maße auf: <ph type="x-smartling-placeholder">
    </ph>
  • Euklidische Distanz = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Punktprodukt = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Kosinus = \(\cos(\theta_{ab})\).
Daher sind alle drei Ähnlichkeitsmaße gleich, da sie proportional zu \(cos(\theta_{ab})\).

Überprüfung der Ähnlichkeitsmessungen

Ein Ähnlichkeitsmaß quantifiziert die Ähnlichkeit zwischen einem Paar im Verhältnis zu anderen Beispielpaaren. Die beiden Typen, manuelle und beaufsichtigt werden, finden Sie hier:

TypAnleitung zum ErstellenOptimal fürKonsequenzen
ManuellFeaturedaten manuell kombinieren. Kleine Datasets mit Funktionen, die sich leicht kombinieren lassen. Gibt Einblick in die Ergebnisse von Ähnlichkeitsberechnungen. Wenn-Funktion ändern, müssen Sie den Ähnlichkeitsmesswert manuell aktualisieren.
ÜberwachtEntfernung zwischen Einbettungen messen, die durch ein überwachtes DNN. Große Datasets mit schwer zu kombinierenden Merkmalen Gibt keinen Einblick in die Ergebnisse. Ein DNN kann sich jedoch automatisch zum Ändern von Featuredaten.