Nadzorowany pomiar podobieństwa

Zamiast ręcznie porównywać dane cech, możesz zmniejszyć danych do reprezentacji nazywanych osadzanie, a następnie porównaj wektory dystrybucyjne. Wektory dystrybucyjne są generowane przez trenowanie nadzorowanej głębokej struktury neuronowej sieć (DNN) na obiekcie danych. Wektory dystrybucyjne mapują dane cech na wektor we wektorach dystrybucyjnych ma zazwyczaj mniej wymiarów niż dane cech. Umieszczanie jest omawiane w artykule Umieszczanie w szkoleniu maszynowym, natomiast sieci neuronowe są omówione w dalszej części szkolenia, Sieci neuronowe . wektory dystrybucyjne dla podobnych przykładów, takie jak filmy YouTube na podobne tematy oglądane przez tych samych użytkowników, są umieszczane blisko siebie kosmosu. Nadzorowany wskaźnik podobieństwa używa tego „zbliżenia”, aby określić ilościowo podobieństwo par przykłady.

Pamiętaj, że mówimy wyłącznie o nauczaniu nadzorowanym, aby stworzyć nasze podobieństwo. pomiaru. Miara podobieństwa, ręczna lub nadzorowana, jest następnie wykorzystywana algorytm do nienadzorowanego grupowania.

Porównanie wskaźników ręcznych i nadzorowanych

W tej tabeli opisano, kiedy należy stosować podobieństwo ręczne lub nadzorowane w zależności od wymagań.

Co musisz zrobićRęcznieNadzorowane
Eliminuje zbędne informacje w skorelowanych funkcjach? Nie, musisz zbadać wszystkie korelacje między funkcjami. Tak, DNN eliminuje zbędne informacje.
Zapewnia wgląd w obliczone podobieństwa? Tak Nie, wektorów dystrybucyjnych nie można rozszyfrować.
Czy sprawdzi się w przypadku małych zbiorów danych z niewielką liczbą funkcji? Tak. Nie, małe zbiory danych nie dostarczają wystarczającej ilości danych treningowych dla nazwy DNN.
Nadaje się do dużych zbiorów danych z wieloma funkcjami? Nie – ręczne wyeliminowanie zbędnych informacji z wielu funkcji a potem ich łączenie jest bardzo trudne. Tak. DNN automatycznie usuwa zbędne informacje i łączy funkcje.

Tworzenie nadzorowanego pomiaru podobieństwa

Proces tworzenia nadzorowanego wskaźnika podobieństwa:

Podaj dane cech. Wybierz DNN: autokoder lub prognozowanie.
      Wyodrębnianie wektorów dystrybucyjnych. Wybierz pomiar: iloczyn skalarny, cosinus lub
      Odległość euklidesowa.
Rys. 1: Etapy tworzenia nadzorowanego podobieństwa pomiar skuteczności.

Na tej stronie są omówione numery DNN, a Opisy pozostałych kroków znajdziesz na kolejnych stronach.

Wybierz DNN na podstawie etykiet trenowania

Ogranicz dane cech do wektorów dystrybucyjnych mniejszych, trenując nazwę DNN, która: używa tych samych danych cech zarówno jako danych wejściowych, jak i jako etykiety. Na przykład w polu W przypadku danych autoreklamy DNN używa funkcji takich jak cena, rozmiar kod pocztowy – aby samodzielnie prognozować te cechy.

Autokoder

Nazwa DNN, która uczy się wektorów dystrybucyjnych danych wejściowych przez przewidywanie samych danych wejściowych jest nazywany autokoderem. Ponieważ ukryte warstwy autokodera są mniejsze niż warstwy wejściowe i wyjściowe, autokoder musi nauczyć się Skompresowana reprezentacja danych wejściowych cech. Po wytrenowaniu nazwy DNN wyodrębniania wektorów dystrybucyjnych z najmniejszej ukrytej warstwy, aby obliczyć podobieństwo.

Ilustracja pokazująca dużą liczbę węzłów dla identycznego
       danych wejściowych i wyjściowych, które są kompresowane do 3 węzłów pośrodku.
       lub pięć ukrytych warstw.
Rys. 2. Architektura autoenkodera

Prognoza

Autokoder to najprostszy sposób na generowanie wektorów dystrybucyjnych. Jednak przy użyciu autoenkodera nie jest najlepszym wyborem, gdy niektóre funkcje mogą być są ważniejsze niż inne przy określaniu podobieństwa. Na przykład dane własne, zakładamy, że cena jest ważniejsza niż kod pocztowy. W takich przypadkach użyj wartości tylko ważną funkcję jako etykietę trenowania dla DNN. Ponieważ ta nazwa DNN prognozuje konkretną cechę wejściową, zamiast przewidzieć wszystkie cechy wejściowe, jest nazywany predyktorem DNN. Wektory dystrybucyjne powinny być zwykle wyodrębniane z ostatniej warstwy wektora dystrybucyjnej.

Ilustracja pokazująca dużą liczbę węzłów w wektorze wejściowym
       redukcja na trzech ukrytych warstwach do warstwy z 3 węzłami,
       wektory dystrybucyjne muszą zostać wyodrębnione. Ostatnia warstwa wyjściowa jest prognozowana
       .
Rys. 3. Architektura prognozowania.

Podczas wybierania obiektu, który ma być etykietą:

  • Preferuj cechy liczbowe względem cech kategorialnych, ponieważ strata jest łatwiejszy do obliczenia i zinterpretowania dla funkcji liczbowych.

  • usuń z danych wejściowych do DNN funkcję używaną jako etykieta; W przeciwnym razie DNN użyje tej funkcji do dokładnego przewidzenia wyników. (To jest ekstremalny przykład wycieku etykiet).

W zależności od wybranych etykiet wynikowa nazwa DNN jest albo za pomocą automatycznego kodera lub prognoz.