Teraz masz umieszczanie na dowolnej parze przykładów. Pomiar podobieństwa uwzględnia te osadzenia i zwraca liczbę mierzącą ich podobieństwo. Pamiętaj, że umieszczanie to tylko wektory liczb. Aby znaleźć podobieństwo między 2 wektorami \(A = [a_1,a_2,...,a_n]\) i \(B = [b_1,b_2,...,b_n]\), masz do wyboru 3 metody podobieństwa, zgodnie z tabelą poniżej.
Measure | Znaczenie | Formuła | Związek ze wzrostem podobieństwa |
---|---|---|---|
Odległość euklidesowa | Odległość między koniecmi wektorów | \(\sqrt{(a_1-b_1)^2+(a_2-b_2)^2+...+(a_N-b_N)^2}\) | Spadek |
Cosinus | Cosinus kąta \(\theta\) między wektorami | \(\frac{a^T b}{|a| \cdot |b|}\) | Wzrosty |
Kropki | Cosinus pomnożony przez długości obu wektorów | \(a_1b_1+a_2b_2+...+a_nb_n\) \(=|a||b|cos(\theta)\) | Wzrosty. Zwiększa się też przez długość wektorów. |
Wybieranie pomiaru podobieństwa
W przeciwieństwie do cosinusa kropka jest proporcjonalna do długości wektora. Jest to istotne, bo przykłady, które bardzo często pojawiają się w zestawie szkoleniowym (na przykład popularne filmy w YouTube), mają wbudowane sekwencje o długiej długości. Jeśli chcesz wykorzystać popularność, wybierz punktowy produkt. Ryzyko związane z tym może jednak również zaburzyć dane dotyczące podobieństwa. Aby zniekształcić to zniekształcenie, możesz zwiększyć długość do wykładnika \(\alpha\ < 1\) , aby obliczyć wartość kropki jako \(|a|^{\alpha}|b|^{\alpha}\cos(\theta)\).
Aby lepiej zrozumieć, jak długość wektora zmienia miary podobieństwa, ustandaryzuj długości wektora do 1 i zauważ, że te 3 wskaźniki stają się proporcjonalne względem siebie.
- Odległość euklidesowa = \(||a-b|| = \sqrt{||a||^2 + ||b||^2 - 2a^{T}b} = \sqrt{2-2\cos(\theta_{ab})}\).
- Kropka = \( |a||b| \cos(\theta_{ab}) = 1\cdot1\cdot \cos(\theta_{ab}) = cos(\theta_{ab})\).
- Cosinus = \(\cos(\theta_{ab})\).