Zalety i wady k-średnich

Wskaźnik K-średnie jest przydatny w wielu kontekstach dla systemów uczących się, ale pewnych konkretnych słabych punktów.

Zalety k-średnich

Względnie proste do wdrożenia.

Możliwość skalowania do dużych zbiorów danych.

Zawsze są zbieżne.

Umożliwia ciepłe wprowadzenie położenia centroidów.

Płynnie dostosowuje się do nowych przykładów.

Można je uogólnić na klastry różnych kształtów i rozmiarów, takich jak klastry eliptyczne.

Uogólnianie „k-średnich”

Prosta implementacja k-średnich może wiązać się z problemami z klastrami różne gęstości i rozmiary. Po lewej stronie na rys. 1 widoczne są klastry a po prawej widoczne są klastry zaproponowane przez wartości k.

Dwa wykresy obok siebie. W pierwszym pokazano zbiór danych z nieco oczywistymi klastrami. Druga przedstawia nieparzystą grupę przykładów po zastosowaniu wartości k-średnich.
Rys. 1. Przykład nieuogólnionego wartości k-średnich.

Aby uzyskać lepszą wydajność w przypadku niezrównoważonych klastrów, takich jak te pokazane na rys. 1, można uogólnić, czyli dostosować, k-średnie. Rysunek 2 przedstawia trzy różne na 2 różne uogólnienia. Pierwszy zbiór danych pokazuje k-średnie bez uogólniania, podczas gdy drugi i trzeci umożliwiają klastrom różnią się szerokością.

Trzy wykresy przedstawiające k-średnie bez uogólnienia, a następnie k-średnie
       dla różnych szerokości, a następnie k-średnie pozwalają na różne szerokości.
       w różnych wymiarach.
Rys. 2. Grupowanie k-średnich z uogólnieniem i bez niego.

Nie bierzemy pod uwagę uogólniania k-średnich, powinien zobaczyć link Grupowanie – mieszanina k-średnich Gaussa modele autorstwa Carlosa Guestrina z Carnegie Mellon University.

Wady k-średnich

Atrybut\(k\) należy wybrać ręcznie.

Wyniki zależą od wartości początkowych.

W przypadku niskiej wartości \(k\)możesz ograniczyć tę zależność, uruchamiając polecenie k-średnie z różnymi wartościami początkowymi i wybranie najlepszego wyniku. Jako \(k\) rośnie, potrzebujesz parametru k-średnich, aby wybrać lepszą wartość początkową centroidy Pełne omówienie rozmnażania k-średnich znajdziesz w artykule „Porównawczy Badanie efektywnych metod inicjowania w klastrach k-średnich Algorithm”, M. Emre Celebi, Hassan A. Kingravi, Patricio A. Wela.

Trudności w grupowaniu danych o różnych rozmiarach i gęstości bez uogólnień.

Trudności z grupowaniem wyników odstających.

Centroidy mogą być przeciągane przez wartości odstające, a wyniki odstające mogą mieć własną gromadę nie są ignorowane. Rozważ usunięcie lub przycięcie elementów odstających przed grupowania.

Trudności ze skalowaniem z uwzględnieniem liczby wymiarów.

Wraz ze wzrostem liczby wymiarów w danych rośnie też podobieństwo oparte na odległości. mierzy zbieżność do stałej wartości między podanymi przykładami. Ograniczamy wymiarowość albo za pomocą funkcji PCA na danych cech lub przez modyfikację grupowania za pomocą grupowania widmowego algorytmem bezpieczeństwa.

Kleksa wielowymiarowości i grupowania widmowego

Zwróć uwagę, że na tych 3 wykresach wraz ze wzrostem wymiarów odchylenie standardowe odległość między przykładami zmniejsza się w stosunku do średniej odległości między przykłady. Ten zbieżność oznacza, że k-średnie są mniej skuteczne w rozróżnianiu wraz ze zwiększaniem wymiarów danych. Jest to tzw. przekleństwo wielowymiarowości.

3 wykresy, które pokazują, jak odchylenie standardowe odległości między przykładami maleje wraz ze wzrostem liczby wymiarów.
Rys. 3: Prezentowanie przekleństwa wielowymiarowości. Każdy wykres pokazuje odległości w parach między 200 losowymi punktami.

Możesz uniknąć tego spadku wydajności, używając grupowania widmowego, który dodaje do algorytmu kroki wstępnego grupowania. Do przeprowadzenia widma grupowanie:

  1. Zmniejsz wymiarowość danych cech, używając PCA.
  2. Rzutowanie wszystkich punktów danych do podprzestrzeni w mniejszej przestrzeni.
  3. Pogrupuj dane w tej podprzestrzeni za pomocą wybranego algorytmu.

Zobacz samouczek dotyczący widma Grupowanie według Ulrike'a von Luxburga w celu uzyskania dodatkowych informacji o spektrum grupowania.