Teraz masz wstępy dla dowolnej pary przykładów. Zastosowana metoda nadzorowana do pomiaru podobieństwa przyjmuje te wektory dystrybucyjne i zwraca liczbę, która mierzy ich podobieństwo. Pamiętaj, że reprezentacje właściwościowe to wektory liczb. Aby znaleźć podobieństwo między 2 wektorami i , wybierz jedną z tych 3 miar podobieństwa:
Pomiary | Znaczenie | Formuła | Wraz ze wzrostem podobieństwa ta wartość... |
---|---|---|---|
Odległość euklidesowa | Odległość między końcami wektorów | Zmniejszenie | |
Cosinus | Cosinus kąta między wektorami | Zwiększanie | |
Iloczyn skalarny | Cosinus pomnożony przez długości obu wektorów | Zwiększa. Wzrasta również wraz z długością wektorów. |
Wybieranie miary podobieństwa
W przeciwieństwie do cosinusa iloczyn skalarny jest proporcjonalny do długości wektora. Jest to ważne, ponieważ przykłady, które występują bardzo często w zbiorze treningowym (np. popularne filmy w YouTube), mają zwykle duże wektory embeddingu. Jeśli chcesz uwzględnić popularność, wybierz kropkę. Istnieje jednak ryzyko, że popularne przykłady mogą zafałszować dane o podobieństwie. Aby zrównoważyć to zniekształcenie, możesz podnieść długość do wykładnika , aby obliczyć iloczyn kropek jako .
Aby lepiej zrozumieć, jak długość wektora zmienia miarę podobieństwa, znormalizuj długości wektorów do 1 i zauważ, że te 3 miary stają się proporcjonalne względem siebie.
- Odległość euklidesowa = .
- Iloczyn skalarny = .
- Cosinus = .
Sprawdzanie podobieństwa
Miernik podobieństwa określa podobieństwo pary przykładów w stosunku do innych par przykładów. Poniżej porównujemy 2 rodzaje: ręczny i nadzorowany:
Typ | Jak utworzyć | Najlepsze zastosowania | Konsekwencje |
---|---|---|---|
Ręcznie | Ręczne łączenie danych funkcji. | małe zbiory danych z cechami, które łatwo połączyć; | Umożliwia uzyskanie informacji o wynikach obliczeń podobieństwa. Jeśli dane funkcji ulegną zmianie, musisz ręcznie zaktualizować miarę podobieństwa. |
Nadzorowane | pomiar odległości między wektorami dystrybucyjnymi wygenerowanymi przez nadzorowany DNN; | Duże zbiory danych z cechami, które trudno połączyć. | nie daje żadnych informacji o wynikach, Sieć DNN może jednak automatycznie dostosowywać się do zmieniających się danych o cechach. |