Sie haben jetzt Einbettungen für jedes Beispielpaar. Eine überwachte Ähnlichkeit "measure" nimmt diese Einbettungen auf und gibt eine Zahl zurück, die ihre Ähnlichkeit misst. Denken Sie daran, dass Einbettungen Vektoren von Zahlen sind. Um die Ähnlichkeit zwischen zwei Vektoren \(A = [a_1,a_2,...,a_n]\) und \(B = [b_1,b_2,...,b_n]\), wählen Sie eines dieser drei Ähnlichkeitsmaße aus:
Messen | Bedeutung | Formel | Mit zunehmender Ähnlichkeit... |
---|---|---|---|
Euklidischer Abstand | Abstand zwischen den Enden von Vektoren | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Verringert |
Kosinus | Kosinus des Winkels \(\theta\) zwischen Vektoren | \(\frac{a^T b}{|a| \cdot |b|}\) | Steigerungen |
Skalarprodukt | Kosinus multipliziert mit der Länge beider Vektoren | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Erhöht sich. Erhöht sich auch mit der Länge der Vektoren. |
Ähnlichkeitsmesswert auswählen
Im Gegensatz zum Kosinus ist das Punktprodukt proportional zur Vektorlänge. Das ist wichtig, weil Beispiele, die sehr häufig im Training vorkommen, wie beliebte YouTube-Videos, weisen meist Einbettungsvektoren mit sehr lang sind. Wenn Sie die Beliebtheit erfassen möchten, und wählen Sie ein Punktprodukt. Es besteht jedoch das Risiko, beliebte Beispiele den Ähnlichkeitswert verfälschen können. Um diese Verzerrung auszugleichen, können Sie die Länge auf einen Exponenten erhöhen, \(\alpha\ < 1\) um das Skalarprodukt zu berechnen als \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Um besser zu verstehen, wie die Vektorlänge das Ähnlichkeitsmaß ändert, Vektorlängen auf 1 und stellen Sie fest, dass die drei Maße proportional werden. miteinander kommunizieren.
- </ph>
- Euklidische Distanz = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Punktprodukt = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Kosinus = \(\cos(\theta_{ab})\).
Überprüfung der Ähnlichkeitsmessungen
Ein Ähnlichkeitsmaß quantifiziert die Ähnlichkeit zwischen einem Paar im Verhältnis zu anderen Beispielpaaren. Die beiden Typen, manuelle und beaufsichtigt werden, finden Sie hier:
Typ | Anleitung zum Erstellen | Optimal für | Konsequenzen |
---|---|---|---|
Manuell | Featuredaten manuell kombinieren. | Kleine Datasets mit Funktionen, die sich leicht kombinieren lassen. | Gibt Einblick in die Ergebnisse von Ähnlichkeitsberechnungen. Wenn-Funktion ändern, müssen Sie den Ähnlichkeitsmesswert manuell aktualisieren. |
Überwacht | Entfernung zwischen Einbettungen messen, die durch ein überwachtes DNN. | Große Datasets mit schwer zu kombinierenden Merkmalen | Gibt keinen Einblick in die Ergebnisse. Ein DNN kann sich jedoch automatisch zum Ändern von Featuredaten. |