Wskaźnik K-średnie jest przydatny w wielu kontekstach dla systemów uczących się, ale pewnych konkretnych słabych punktów.
Zalety k-średnich
Względnie proste do wdrożenia.
Możliwość skalowania do dużych zbiorów danych.
Zawsze są zbieżne.
Umożliwia ciepłe wprowadzenie położenia centroidów.
Płynnie dostosowuje się do nowych przykładów.
Można je uogólnić na klastry różnych kształtów i rozmiarów, takich jak klastry eliptyczne.
Uogólnianie „k-średnich”
Prosta implementacja k-średnich może wiązać się z problemami z klastrami różne gęstości i rozmiary. Po lewej stronie na rys. 1 widoczne są klastry a po prawej widoczne są klastry zaproponowane przez wartości k.
Aby uzyskać lepszą wydajność w przypadku niezrównoważonych klastrów, takich jak te pokazane na rys. 1, można uogólnić, czyli dostosować, k-średnie. Rysunek 2 przedstawia trzy różne na 2 różne uogólnienia. Pierwszy zbiór danych pokazuje k-średnie bez uogólniania, podczas gdy drugi i trzeci umożliwiają klastrom różnią się szerokością.
Nie bierzemy pod uwagę uogólniania k-średnich, powinien zobaczyć link Grupowanie – mieszanina k-średnich Gaussa modele autorstwa Carlosa Guestrina z Carnegie Mellon University.
Wady k-średnich
Atrybut\(k\) należy wybrać ręcznie.
Wyniki zależą od wartości początkowych.
W przypadku niskiej wartości \(k\)możesz ograniczyć tę zależność, uruchamiając polecenie k-średnie z różnymi wartościami początkowymi i wybranie najlepszego wyniku. Jako \(k\) rośnie, potrzebujesz parametru k-średnich, aby wybrać lepszą wartość początkową centroidy Pełne omówienie rozmnażania k-średnich znajdziesz w artykule „Porównawczy Badanie efektywnych metod inicjowania w klastrach k-średnich Algorithm”, M. Emre Celebi, Hassan A. Kingravi, Patricio A. Wela.
Trudności w grupowaniu danych o różnych rozmiarach i gęstości bez uogólnień.
Trudności z grupowaniem wyników odstających.
Centroidy mogą być przeciągane przez wartości odstające, a wyniki odstające mogą mieć własną gromadę nie są ignorowane. Rozważ usunięcie lub przycięcie elementów odstających przed grupowania.
Trudności ze skalowaniem z uwzględnieniem liczby wymiarów.
Wraz ze wzrostem liczby wymiarów w danych rośnie też podobieństwo oparte na odległości. mierzy zbieżność do stałej wartości między podanymi przykładami. Ograniczamy wymiarowość albo za pomocą funkcji PCA na danych cech lub przez modyfikację grupowania za pomocą grupowania widmowego algorytmem bezpieczeństwa.
Kleksa wielowymiarowości i grupowania widmowego
Zwróć uwagę, że na tych 3 wykresach wraz ze wzrostem wymiarów odchylenie standardowe odległość między przykładami zmniejsza się w stosunku do średniej odległości między przykłady. Ten zbieżność oznacza, że k-średnie są mniej skuteczne w rozróżnianiu wraz ze zwiększaniem wymiarów danych. Jest to tzw. przekleństwo wielowymiarowości.
Możesz uniknąć tego spadku wydajności, używając grupowania widmowego, który dodaje do algorytmu kroki wstępnego grupowania. Do przeprowadzenia widma grupowanie:
- Zmniejsz wymiarowość danych cech, używając PCA.
- Rzutowanie wszystkich punktów danych do podprzestrzeni w mniejszej przestrzeni.
- Pogrupuj dane w tej podprzestrzeni za pomocą wybranego algorytmu.
Zobacz samouczek dotyczący widma Grupowanie według Ulrike'a von Luxburga w celu uzyskania dodatkowych informacji o spektrum grupowania.