Ręczny pomiar podobieństwa

Jak pokazano tutaj, k-średnie przypisują punkty do najbliższego centroidu. Ale co robi „najbliższy” średnio?

Aby zastosować k-średnie do danych cech, musisz zdefiniować miarę podobieństwo łączące wszystkie dane cech w jedną wartość liczbową, nazywamy ręcznym pomiarem podobieństwa.

Weźmy pod uwagę zbiór danych o butach. Jeśli w tym zbiorze danych jedyną cechą tego zbioru danych jest rozmiar buta, możesz zdefiniować podobieństwo dwóch butów w postaci różnicy między ich rozmiarów. Im mniejsza jest różnica liczbowa między rozmiarami, tym większa podobieństwo butów.

Jeśli ten zbiór danych o butach miał 2 cechy liczbowe – rozmiar i cenę, możesz połączyć podamy je w jedną liczbę reprezentującą podobieństwo. Najpierw przeskaluj dane, są porównywalne:

  • Rozmiar (s): rozmiar buta prawdopodobnie określa rozkład Gaussa. Potwierdź to. Następnie znormalizuj dane.
  • Cena (p): dane to prawdopodobnie rozkład Poissona. Potwierdź to. Jeśli masz wystarczającą ilość danych, przekonwertuj je na kwantyle i przeskaluj do \([0,1]\).

Następnie połącz obie te cechy, obliczając średnia kwadratowa błędów (RMSE). Tę przybliżoną miarę podobieństwa podaje się przez \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)

W prostym przykładzie oblicz podobieństwo dwóch butów w rozmiarze USA 8 i 11 oraz ceny 120 i 150. Mamy za mało danych, aby zrozumieć rozkładu, będziemy skalować dane bez ich normalizacji ani kwantyle.

DziałanieMetoda
Skaluj rozmiar. Załóżmy, że maksymalny możliwy rozmiar buta to 20. Podziel 8 i 11 przez maksymalny rozmiar 20, żeby uzyskać 0,4 i 0,55.
Zwiększ cenę. Aby uzyskać 0,8 i 1, podziel 120 i 150 przez maksymalną cenę 150.
Znajdź różnicę w rozmiarze. \(0.55 - 0.4 = 0.15\)
Znajdź różnicę w cenie. \(1 - 0.8 = 0.2\)
Oblicz średnią RMSE. \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

Intuicyjnie miara podobieństwa powinna się zwiększać, gdy dane cech podobne. Zamiast tego miara podobieństwa (RMSE) faktycznie maleje. Twórz mierz podobieństwo, odejmując wynik od 1, kierując się intuicją.

\[\text{Similarity} = 1 - 0.17 = 0.83\]

Ogólnie można przygotować dane liczbowe w sposób opisany w Przygotuj dane, a następnie połącz za pomocą odległości euklidesowej.

A gdyby zbiór danych zawierał zarówno rozmiar buta, jak i kolor butów? Obecny kolor to dane kategorialne, omówione w ramach szybkiego szkolenia dotyczącego uczenia maszynowego w Praca z danymi kategorialnymi. Dane kategorialne trudniej połączyć z danymi liczbowymi. Może to być:

  • Jednowartościowe (jednowartościowe), np. kolor samochodu („biały” lub „niebieski”, ale nigdy obydwa)
  • wielowartościowy (wielowartościowy), np. gatunek filmu (film może być jednocześnie: „działanie” i „komediowe”, albo tylko „działanie”)

Jeśli dane jednoznaczne są zgodne, np. w przypadku dwóch par niebieskich butów, podobieństwo między przykładami wynosi 1. W przeciwnym razie podobieństwo wynosi 0.

Ciężko jest korzystać z danych wielowartościowych, takich jak gatunki filmów. Jeśli występuje ustalonych gatunków filmowych, podobieństwo można obliczyć za pomocą współczynnika wspólne wartości, zwane Podobieństwo do danych Jacquard. Przykład podobieństwo Jaccarda:

  • [“komedia”, „action”] i [“komedia”,”action”] = 1
  • [„komedia”, „akcja”] i [„akcja”] = 1⁄2
  • [„komedia”, „akcja”] i [„akcja”, „dramat”] = 1⁄3
  • [„komedia”, „akcja”] i [“non-fiction”,”biograficzny”] = 0

Podobieństwo Jaccarda nie jest jedynym możliwym ręcznym pomiarem podobieństw dane kategorialne. Dwa kolejne przykłady:

  • Kody pocztowe można przekonwertować na szerokość i długość geograficzną przed obliczanie odległości euklidesowej między nimi.
  • Kolor może być przekształcany na liczbowe wartości RGB z różnicami w postaci połączone w odległość euklidesową.

Patrz Praca z danymi kategorialnymi. aby dowiedzieć się więcej.

Ogólnie rzecz biorąc, ręczny pomiar podobieństwa musi bezpośrednio odpowiadać do faktycznego podobieństwo. Jeśli wybrane dane nie, nie kodują parametru które ma zakodować.

Zanim obliczysz pomiar podobieństwa, dokładnie przetwórz dane wstępnie. Uprościliśmy przykłady na tej stronie. Większość rzeczywistych zbiorów danych jest duża i złożone. Jak już wspomnieliśmy, dobrym domyślnym wyborem są kwantyle przetwarzania danych liczbowych.

Wraz ze wzrostem złożoności danych coraz trudniej jest opracować pomiar podobieństwa. W takiej sytuacji przełącz się na nadzorowanej metody podobieństw, w przypadku której komputer nadzorowany który oblicza podobieństwo. Zostanie to omówione bardziej szczegółowo. później.