Ta strona została przetłumaczona przez Cloud Translation API.

Pomiar podobieństwa z wektorów dystrybucyjnych

Teraz masz wstępy dla dowolnej pary przykładów. Zastosowana metoda nadzorowana do pomiaru podobieństwa przyjmuje te wektory dystrybucyjne i zwraca liczbę, która mierzy ich podobieństwo. Pamiętaj, że reprezentacje właściwościowe to wektory liczb. Aby znaleźć podobieństwo między 2 wektorami \(A = [a_1,a_2,...,a_n]\) i \(B = [b_1,b_2,...,b_n]\), wybierz jedną z tych 3 miar podobieństwa:

Pomiary	Znaczenie	Formuła	Wraz ze wzrostem podobieństwa ta wartość...
Odległość euklidesowa	Odległość między końcami wektorów	\(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\)	Zmniejszenie
Cosinus	Cosinus kąta \(\theta\) między wektorami	\(\frac{a^T b}{\|a\| \cdot \|b\|}\)	Zwiększanie
Iloczyn skalarny	Cosinus pomnożony przez długości obu wektorów	\(a_1b_1+a_2b_2+...+a_nb_n\) \(=\|a\|\|b\|cos(\theta)\)	Zwiększa. Wzrasta również wraz z długością wektorów.

Wybieranie miary podobieństwa

W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. Jest to ważne, ponieważ przykłady, które występują bardzo często w zbiorze treningowym (np. popularne filmy w YouTube), mają zwykle duże wektory embeddingu. Jeśli chcesz uwzględnić popularność, wybierz kropkę. Istnieje jednak ryzyko, że popularne przykłady mogą zafałszować dane o podobieństwie. Aby zrównoważyć to zniekształcenie, możesz podnieść długość do wykładnika \(\alpha\ < 1\) , aby obliczyć iloczyn kropek jako \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).

Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te 3 miary stają się proporcjonalne względem siebie.

Uzasadnienie: proporcjonalność środków dotyczących podobieństwa

Po normalizacji wartości a i b tak, aby \(||a||=1\) i \(||b||=1\), te 3 wartości są powiązane w ten sposób:

Odległość euklidesowa = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
Iloczyn skalarny = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
Cosinus = \(\cos(\theta_{ab})\).

W związku z tym wszystkie 3 wskaźniki podobieństwa są równoważne, ponieważ są proporcjonalne do wartości \(cos(\theta_{ab})\).

Sprawdzanie podobieństwa

Miernik podobieństwa określa podobieństwo pary przykładów w stosunku do innych par przykładów. Poniżej porównujemy 2 rodzaje: ręczny i nadzorowany:

Typ	Jak utworzyć	Najlepsze zastosowania	Konsekwencje
Ręcznie	Ręczne łączenie danych funkcji.	małe zbiory danych z cechami, które łatwo połączyć;	Umożliwia uzyskanie informacji o wynikach obliczeń podobieństwa. Jeśli dane funkcji ulegną zmianie, musisz ręcznie zaktualizować miarę podobieństwa.
Nadzorowane	pomiar odległości między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowany DNN;	Duże zbiory danych z cechami, które trudno połączyć.	nie daje żadnych informacji o wynikach, Sieć DNN może jednak automatycznie dostosowywać się do zmieniających się danych o cechach.

Wstecz

Autokodery, prognozy i wektory dystrybucyjne

Dalej

Sprawdź swoją wiedzę

Pomiar podobieństwa z wektorów dystrybucyjnych Zadbaj o dobrą organizację dzięki kolekcji Zapisuj i kategoryzuj treści zgodnie ze swoimi preferencjami.

Wybieranie miary podobieństwa

Sprawdzanie podobieństwa

Pomiar podobieństwa z wektorów dystrybucyjnych