Pomiar podobieństwa z wektorów dystrybucyjnych

Teraz masz wstępy dla dowolnej pary przykładów. Zastosowana metoda nadzorowana do pomiaru podobieństwa przyjmuje te wektory dystrybucyjne i zwraca liczbę, która mierzy ich podobieństwo. Pamiętaj, że reprezentacje właściwościowe to wektory liczb. Aby znaleźć podobieństwo między 2 wektorami A=[a1,a2,...,an]B=[b1,b2,...,bn], wybierz jedną z tych 3 miar podobieństwa:

PomiaryZnaczenieFormuła Wraz ze wzrostem podobieństwa ta wartość...
Odległość euklidesowaOdległość między końcami wektorów (a1b1)2+(a2b2)2+...+(aNbN)2 Zmniejszenie
CosinusCosinus kąta θ między wektorami aTb|a||b| Zwiększanie
Iloczyn skalarnyCosinus pomnożony przez długości obu wektorów a1b1+a2b2+...+anbn =|a||b|cos(θ) Zwiększa. Wzrasta również wraz z długością wektorów.

Wybieranie miary podobieństwa

W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. Jest to ważne, ponieważ przykłady, które występują bardzo często w zbiorze treningowym (np. popularne filmy w YouTube), mają zwykle duże wektory embeddingu. Jeśli chcesz uwzględnić popularność, wybierz kropkę. Istnieje jednak ryzyko, że popularne przykłady mogą zafałszować dane o podobieństwie. Aby zrównoważyć to zniekształcenie, możesz podnieść długość do wykładnika α <1 , aby obliczyć iloczyn kropek jako |a|α|b|αcos(θ).

Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te 3 miary stają się proporcjonalne względem siebie.

Uzasadnienie: proporcjonalność środków dotyczących podobieństwa
Po normalizacji wartości a i b tak, aby ||a||=1||b||=1, te 3 wartości są powiązane w ten sposób:
  • Odległość euklidesowa = ||ab||=||a||2+||b||22aTb=22cos(θab).
  • Iloczyn skalarny = |a||b|cos(θab)=11cos(θab)=cos(θab).
  • Cosinus = cos(θab).
W związku z tym wszystkie 3 wskaźniki podobieństwa są równoważne, ponieważ są proporcjonalne do wartości cos(θab).

Sprawdzanie podobieństwa

Miernik podobieństwa określa podobieństwo pary przykładów w stosunku do innych par przykładów. Poniżej porównujemy 2 rodzaje: ręczny i nadzorowany:

TypJak utworzyćNajlepsze zastosowaniaKonsekwencje
RęcznieRęczne łączenie danych funkcji. małe zbiory danych z cechami, które łatwo połączyć; Umożliwia uzyskanie informacji o wynikach obliczeń podobieństwa. Jeśli dane funkcji ulegną zmianie, musisz ręcznie zaktualizować miarę podobieństwa.
Nadzorowanepomiar odległości między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowany DNN; Duże zbiory danych z cechami, które trudno połączyć. nie daje żadnych informacji o wynikach, Sieć DNN może jednak automatycznie dostosowywać się do zmieniających się danych o cechach.