Sie haben jetzt Einbettungen für jedes Beispielpaar. Bei einer superviseden Ähnlichkeitsmessung werden diese Einbettungen verwendet, um eine Zahl für ihre Ähnlichkeit zurückzugeben. Denken Sie daran, dass Einbettungen Vektoren von Zahlen sind. Um die Ähnlichkeit zwischen zwei Vektoren \(A = [a_1,a_2,...,a_n]\) und \(B = [b_1,b_2,...,b_n]\)zu ermitteln, wählen Sie eine der folgenden drei Ähnlichkeitsmaße aus:
Messen | Bedeutung | Formel | Je höher die Ähnlichkeit ist, desto… |
---|---|---|---|
Euklidischer Abstand | Abstand zwischen den Enden von Vektoren | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | sinkt |
Kosinus | Kosinus des Winkels \(\theta\) zwischen Vektoren | \(\frac{a^T b}{|a| \cdot |b|}\) | erhöht |
Skalarprodukt | Kosinus multipliziert mit den Längen beider Vektoren | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | steigt. Er steigt auch mit der Länge der Vektoren. |
Ähnlichkeitsmaß auswählen
Im Gegensatz zum Kosinus ist das Skalarprodukt proportional zur Vektorlänge. Das ist wichtig, weil Beispiele, die im Trainingssatz sehr häufig vorkommen (z. B. beliebte YouTube-Videos), in der Regel Einbettungsvektoren mit großer Länge haben. Wenn Sie die Beliebtheit erfassen möchten, wählen Sie die Punktproduktfunktion aus. Es besteht jedoch das Risiko, dass beliebte Beispiele den Ähnlichkeitsmesswert verfälschen. Um diesen Versatz auszugleichen, können Sie die Länge mit einem Exponenten multiplizieren \(\alpha\ < 1\) , um das Skalarprodukt als \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\)zu berechnen.
Um besser zu verstehen, wie sich die Vektorlänge auf das Ähnlichkeitsmaß auswirkt, normalisieren Sie die Vektorlängen auf 1. Die drei Maße sind dann proportional zueinander.
- Euklidische Distanz = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Skalarprodukt = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Kosinus = \(\cos(\theta_{ab})\).
Ähnlichkeitsmaße überprüfen
Mit einem Ähnlichkeitsmaß wird die Ähnlichkeit zwischen zwei Beispielen im Vergleich zu anderen Beispielpaaren quantifiziert. Die beiden Typen, manuell und mit Supervision, werden unten verglichen:
Typ | So erstellen Sie | Optimal für | Konsequenzen |
---|---|---|---|
Manuell | Feature-Daten manuell kombinieren | Kleine Datensätze mit Funktionen, die sich einfach kombinieren lassen. | Hier sehen Sie die Ergebnisse der Ähnlichkeitsberechnungen. Wenn sich die Feature-Daten ändern, müssen Sie das Ähnlichkeitsmaß manuell aktualisieren. |
Überwacht | Entfernung zwischen Einbettungen messen, die von einer überwachten DNN generiert wurden. | Große Datensätze mit schwer kombinierbaren Funktionen | Sie gibt keine Aufschluss über die Ergebnisse. Ein DNN kann sich jedoch automatisch an sich ändernde Feature-Daten anpassen. |