Masz teraz wektory dystrybucyjne dla dowolnej pary przykładów. Nadzorowane podobieństwo pomiaru wykorzystuje te wektory dystrybucyjne i zwraca liczbę mierzącą ich podobieństwo. Pamiętaj, że wektory dystrybucyjne to wektory liczb. Aby znaleźć podobieństwo między 2 wektory: \(A = [a_1,a_2,...,a_n]\) oraz \(B = [b_1,b_2,...,b_n]\), wybierz jeden z trzech wskaźników podobieństwa:
Zmierz odległość | Znaczenie | Formuła | Im większe podobieństwo, tym razem... |
---|---|---|---|
Odległość euklidesowa | Odległość między końcami wektorów | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Spadek |
Cosinus | Cosinus kąta \(\theta\) między wektorami | \(\frac{a^T b}{|a| \cdot |b|}\) | Wzrosty |
Iloczyn skalarny | Cosinus pomnożony przez długości obu wektorów | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Wzrasta. Zwiększa się również wraz z długością wektorów. |
Wybieranie wskaźnika podobieństwa
W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. To ważne, ponieważ przykłady, które pojawiają się bardzo często w trenowaniu, (np. w popularnych filmach w YouTube) często są wektory dystrybucyjne w dużych formatach. Jeśli chcesz wykorzystać popularność, wybierz iloczyn skalarny. Ryzyko jest jednak które mogą zniekształcać dane dotyczące podobieństwa. Aby zrównoważyć to odchylenie, możesz: podnieś długość do wykładnika, \(\alpha\ < 1\) aby obliczyć iloczyn skalarny jako \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te trzy wskaźniki stają się proporcjonalne i otwierać przed sobą nawzajem.
- Odległość euklidesowa = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Iloczyn skalarny = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Cosinus = \(\cos(\theta_{ab})\).
Przegląd wskaźników podobieństwa
Miara podobieństwa określa ilościowo podobieństwo między parą w stosunku do innych par przykładów. Są to 2 typy: ręczne i nadzorowanego, można porównać poniżej:
Typ | Jak utworzyć | Najlepsze zastosowania | Konsekwencje |
---|---|---|---|
Ręcznie | Ręcznie połącz dane cech. | Małe zbiory danych z funkcjami, które można łatwo połączyć. | Daje wgląd w wyniki obliczeń podobieństw. Jeśli cecha zmian danych, musisz ręcznie zaktualizować wskaźnik podobieństwa. |
Nadzorowane | Zmierz odległość między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowanej nazwy DNN. | Duże zbiory danych z trudnymi do połączenia funkcjami. | Nie daje wglądu w wyniki. Nazwa DNN może jednak automatycznie się dostosować, przy zmianie danych cech. |