Pomiar podobieństwa z wektorów dystrybucyjnych

Teraz masz wstępy dla dowolnej pary przykładów. Zastosowana metoda nadzorowana do pomiaru podobieństwa przyjmuje te wektory dystrybucyjne i zwraca liczbę, która mierzy ich podobieństwo. Pamiętaj, że reprezentacje właściwościowe to wektory liczb. Aby znaleźć podobieństwo między 2 wektorami \(A = [a_1,a_2,...,a_n]\) i  \(B = [b_1,b_2,...,b_n]\), wybierz jedną z tych 3 miar podobieństwa:

PomiaryZnaczenieFormuła Wraz ze wzrostem podobieństwa ta wartość...
Odległość euklidesowaOdległość między końcami wektorów \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Zmniejszenie
CosinusCosinus kąta \(\theta\) między wektorami \(\frac{a^T b}{|a| \cdot |b|}\) Zwiększanie
Iloczyn skalarnyCosinus pomnożony przez długości obu wektorów \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Zwiększa. Wzrasta również wraz z długością wektorów.

Wybieranie miary podobieństwa

W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. Jest to ważne, ponieważ przykłady, które występują bardzo często w zbiorze treningowym (np. popularne filmy w YouTube), mają zwykle duże wektory embeddingu. Jeśli chcesz uwzględnić popularność, wybierz kropkę. Istnieje jednak ryzyko, że popularne przykłady mogą zafałszować dane o podobieństwie. Aby zrównoważyć to zniekształcenie, możesz podnieść długość do wykładnika \(\alpha\ < 1\) , aby obliczyć iloczyn kropek jako \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te 3 miary stają się proporcjonalne względem siebie.

Uzasadnienie: proporcjonalność środków dotyczących podobieństwa
Po normalizacji wartości a i b tak, aby \(||a||=1\) i  \(||b||=1\), te 3 wartości są powiązane w ten sposób:
  • Odległość euklidesowa = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Iloczyn skalarny = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Cosinus = \(\cos(\theta_{ab})\).
W związku z tym wszystkie 3 wskaźniki podobieństwa są równoważne, ponieważ są proporcjonalne do wartości \(cos(\theta_{ab})\).

Sprawdzanie podobieństwa

Miernik podobieństwa określa podobieństwo pary przykładów w stosunku do innych par przykładów. Poniżej porównujemy 2 rodzaje: ręczny i nadzorowany:

TypJak utworzyćNajlepsze zastosowaniaKonsekwencje
RęcznieRęczne łączenie danych funkcji. małe zbiory danych z cechami, które łatwo połączyć; Umożliwia uzyskanie informacji o wynikach obliczeń podobieństwa. Jeśli dane funkcji ulegną zmianie, musisz ręcznie zaktualizować miarę podobieństwa.
Nadzorowanepomiar odległości między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowany DNN; Duże zbiory danych z cechami, które trudno połączyć. nie daje żadnych informacji o wynikach, Sieć DNN może jednak automatycznie dostosowywać się do zmieniających się danych o cechach.