Teraz masz wstępy dla dowolnej pary przykładów. Zastosowana metoda nadzorowana do pomiaru podobieństwa przyjmuje te wektory dystrybucyjne i zwraca liczbę, która mierzy ich podobieństwo. Pamiętaj, że reprezentacje właściwościowe to wektory liczb. Aby znaleźć podobieństwo między 2 wektorami \(A = [a_1,a_2,...,a_n]\) i \(B = [b_1,b_2,...,b_n]\), wybierz jedną z tych 3 miar podobieństwa:
Pomiary | Znaczenie | Formuła | Wraz ze wzrostem podobieństwa ta wartość... |
---|---|---|---|
Odległość euklidesowa | Odległość między końcami wektorów | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Zmniejszenie |
Cosinus | Cosinus kąta \(\theta\) między wektorami | \(\frac{a^T b}{|a| \cdot |b|}\) | Zwiększanie |
Iloczyn skalarny | Cosinus pomnożony przez długości obu wektorów | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Zwiększa. Wzrasta również wraz z długością wektorów. |
Wybieranie miary podobieństwa
W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. Jest to ważne, ponieważ przykłady, które występują bardzo często w zbiorze treningowym (np. popularne filmy w YouTube), mają zwykle duże wektory embeddingu. Jeśli chcesz uwzględnić popularność, wybierz kropkę. Istnieje jednak ryzyko, że popularne przykłady mogą zafałszować dane o podobieństwie. Aby zrównoważyć to zniekształcenie, możesz podnieść długość do wykładnika \(\alpha\ < 1\) , aby obliczyć iloczyn kropek jako \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te 3 miary stają się proporcjonalne względem siebie.
- Odległość euklidesowa = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Iloczyn skalarny = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Cosinus = \(\cos(\theta_{ab})\).
Sprawdzanie podobieństwa
Miernik podobieństwa określa podobieństwo pary przykładów w stosunku do innych par przykładów. Poniżej porównujemy 2 rodzaje: ręczny i nadzorowany:
Typ | Jak utworzyć | Najlepsze zastosowania | Konsekwencje |
---|---|---|---|
Ręcznie | Ręczne łączenie danych funkcji. | małe zbiory danych z cechami, które łatwo połączyć; | Umożliwia uzyskanie informacji o wynikach obliczeń podobieństwa. Jeśli dane funkcji ulegną zmianie, musisz ręcznie zaktualizować miarę podobieństwa. |
Nadzorowane | pomiar odległości między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowany DNN; | Duże zbiory danych z cechami, które trudno połączyć. | nie daje żadnych informacji o wynikach, Sieć DNN może jednak automatycznie dostosowywać się do zmieniających się danych o cechach. |