Ręczny pomiar podobieństwa

Jak widać, metoda k-średnich przypisuje punkty do najbliższego centroidu. Co jednak oznacza „najbliższy”?

Aby zastosować metodę k-średnich do danych cech, musisz zdefiniować miarę podobieństwa, która łączy wszystkie dane cech w jedną wartość liczbową, zwaną ręczną miarą podobieństwa.

Rozważ zbiór danych o butach. Jeśli zbiór danych ma tylko jedną cechę, jaką jest rozmiar buta, podobieństwo dwóch butów można zdefiniować na podstawie różnicy ich rozmiarów. Im mniejsza różnica liczbowa między rozmiarami, tym większe podobieństwo butów.

Jeśli zbiór danych o butach zawierał 2 cechy liczbowe, rozmiar i cenę, można je połączyć w jedną liczbę reprezentującą podobieństwo. Najpierw skaluj dane, aby obie funkcje były porównywalne:

  • Rozmiar (s): rozmiar buta tworzy prawdopodobnie rozkład normalny. Potwierdź to. Następnie znormalizuj dane.
  • Cena (p): dane mają prawdopodobnie rozkład Poissona. Potwierdź to. Jeśli masz wystarczającą ilość danych, przeprowadź je na kwantyle i przemnień na skalę [0,1].

Następnie połącz te 2 cechy, obliczając średnią kwadratową błędów (RMSE). Ten przybliżony wskaźnik podobieństwa jest określany przez funkcję(sisj)2+(pipj)22.

W prostym przykładzie obliczamy podobieństwo 2 par butów o rozmiarach US 8 i 11 oraz cenach 120 i 150. Ponieważ nie mamy wystarczającej ilości danych, aby poznać rozkład, skalujemy dane bez normalizacji ani stosowania kwantyli.

DziałanieMetoda
Zmień rozmiar. Załóżmy, że maksymalny możliwy rozmiar buta to 20. Podziel 8 i 11 przez maksymalny rozmiar 20, aby uzyskać 0,4 i 0,55.
Zmień cenę. Podziel 120 i 150 przez maksymalną cenę 150, aby uzyskać 0,8 i 1.
Znajdź różnicę w rozmiarze. 0.550.4=0.15
Znajdź różnicę w cenie. 10.8=0.2
Oblicz RMSE. 0.22+0.1522=0.17

W przypadku większego podobieństwa danych funkcji miara podobieństwa powinna rosnąć. Zamiast tego wskaźnik podobieństwa (RMSE) faktycznie maleje. Aby uzyskać wynik podobieństwa zgodny z intuicją, odejmij go od 1.

Similarity=10.17=0.83

Ogólnie dane liczbowe można przygotować zgodnie z opisem w artykule Przygotowywanie danych, a następnie połączyć je za pomocą odległości euklidesa.

Co, jeśli zbiór danych zawierał zarówno rozmiar, jak i kolor butów? Kolor to dane kategoryczne, o których mowa w Kursie intensywnym z systemami uczącymi się w sekcji Praca z danymi kategorycznymi. Dane kategoryczne trudniej jest łączyć z danymi liczbowymi. Może to być:

  • jednowartościowe (jednoznaczne), np. kolor samochodu („biały” lub „niebieski”, ale nigdy oba);
  • wielowartościowe (wieloznaczne), np. gatunek filmu (film może być zarówno filmem akcji, jak i komedią, albo tylko filmem akcji);

Jeśli dane uniwalentne są zgodne, na przykład w przypadku dwóch par niebieskich butów, podobieństwo między przykładami wynosi 1. W przeciwnym razie podobieństwo wynosi 0.

Dane wieloznaczne, np. gatunki filmów, są trudniejsze w użyciu. Jeśli istnieje stały zbiór gatunków filmów, podobieństwo można obliczyć, korzystając z współczynnika wspólnych wartości, zwanego podobieństwami Jaccarda. Przykładowe obliczenia podobieństwa Jaccarda:

  • [“comedy”,”action”] and [“comedy”,”action”] = 1
  • [“comedy”,”action”] and [“action”] = ½
  • [“comedy”,”action”] and [“action”, "drama"] = ⅓
  • [“comedy”,”action”] and [“non-fiction”,”biographical”] = 0

Współczynnik Jaccarda nie jest jedyną możliwą ręczną miarą podobieństwa w przypadku danych kategorycznych. Oto 2 inne przykłady:

  • Kody pocztowe można przekształcić w szerokość i długość geograficzną przed obliczeniem odległości euklidesa między nimi.
  • Kolor można przekształcić w wartości liczbowe RGB, a różnice w wartościach połączyć w odległość euklidesową.

Więcej informacji znajdziesz w artykule Praca z danymi kategorialnymi.

Ogólnie ręczny pomiar podobieństwa musi bezpośrednio odpowiadać rzeczywistemu podobieństwu. Jeśli wybrana przez Ciebie dana nie jest szyfrowana, oznacza to, że nie koduje informacji, które chcesz zakodować.

Przed obliczeniem miary podobieństwa dokładnie przeprowadź wstępne przetwarzanie danych. Przykłady na tej stronie są uproszczone. Większość rzeczywistych zbiorów danych jest dużych i złożonych. Jak już wspomnieliśmy, kwantyle są dobrym domyślnym wyborem do przetwarzania danych liczbowych.

Wraz ze wzrostem złożoności danych ręczne tworzenie miary podobieństwa staje się trudniejsze. W takiej sytuacji przełącz się na nadzorowaną miarę podobieństwa, w której podobieństwo oblicza nadzorowany model uczenia maszynowego. Więcej informacji na ten temat znajdziesz w następnych krokach.