Pomiar podobieństwa z wektorów dystrybucyjnych

Masz teraz wektory dystrybucyjne dla dowolnej pary przykładów. Nadzorowane podobieństwo pomiaru wykorzystuje te wektory dystrybucyjne i zwraca liczbę mierzącą ich podobieństwo. Pamiętaj, że wektory dystrybucyjne to wektory liczb. Aby znaleźć podobieństwo między 2 wektory: \(A = [a_1,a_2,...,a_n]\) oraz \(B = [b_1,b_2,...,b_n]\), wybierz jeden z trzech wskaźników podobieństwa:

Zmierz odległośćZnaczenieFormuła Im większe podobieństwo, tym razem...
Odległość euklidesowaOdległość między końcami wektorów \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) Spadek
CosinusCosinus kąta \(\theta\) między wektorami \(\frac{a^T b}{|a| \cdot |b|}\) Wzrosty
Iloczyn skalarnyCosinus pomnożony przez długości obu wektorów \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) Wzrasta. Zwiększa się również wraz z długością wektorów.

Wybieranie wskaźnika podobieństwa

W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. To ważne, ponieważ przykłady, które pojawiają się bardzo często w trenowaniu, (np. w popularnych filmach w YouTube) często są wektory dystrybucyjne w dużych formatach. Jeśli chcesz wykorzystać popularność, wybierz iloczyn skalarny. Ryzyko jest jednak które mogą zniekształcać dane dotyczące podobieństwa. Aby zrównoważyć to odchylenie, możesz: podnieś długość do wykładnika, \(\alpha\ < 1\) aby obliczyć iloczyn skalarny jako \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te trzy wskaźniki stają się proporcjonalne i otwierać przed sobą nawzajem.

Dowód: proporcjonalne wskaźniki podobieństwa
Po znormalizowaniu a i b tak, że \(||a||=1\) oraz \(||b||=1\) te trzy wskaźniki są powiązane jako:
  • Odległość euklidesowa = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
  • Iloczyn skalarny = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
  • Cosinus = \(\cos(\theta_{ab})\).
Wszystkie 3 miary podobieństw są równoważne, ponieważ są proporcjonalne do \(cos(\theta_{ab})\).

Przegląd wskaźników podobieństwa

Miara podobieństwa określa ilościowo podobieństwo między parą w stosunku do innych par przykładów. Są to 2 typy: ręczne i nadzorowanego, można porównać poniżej:

TypJak utworzyćNajlepsze zastosowaniaKonsekwencje
RęcznieRęcznie połącz dane cech. Małe zbiory danych z funkcjami, które można łatwo połączyć. Daje wgląd w wyniki obliczeń podobieństw. Jeśli cecha zmian danych, musisz ręcznie zaktualizować wskaźnik podobieństwa.
NadzorowaneZmierz odległość między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowanej nazwy DNN. Duże zbiory danych z trudnymi do połączenia funkcjami. Nie daje wglądu w wyniki. Nazwa DNN może jednak automatycznie się dostosować, przy zmianie danych cech.