Zalety i wady

Zalety k-średnich

Wdrożenie jest dość proste.

Skaluje do dużych zbiorów danych.

Gwarancje dotyczące konwersji.

Może wzbudzić zainteresowanie centroidami.

łatwo dostosowywać się do nowych przykładów,

Ogólne ustawienia dla klastrów o różnych kształtach i rozmiarach, takich jak klastry eliptyczne.

K{2/}

Co się dzieje, gdy klastry mają różne gęstości i rozmiary? Rysunek 1. Porównaj intuicyjne klastry po lewej stronie z klastrami znajdującymi się po prawej stronie. Porównanie pokazuje, jak na podstawie zbiorów danych mogą zniknąć dane K.

Dwa wykresy obok siebie. Pierwszy z nich zawiera zbiory oczywistych klastrów. Drugie jest przedstawienie nieparzystego grup przykładów po uruchomieniu k-średnich.
Ilustracja 1.Nieuogólniony przykład K-

Aby klastry w stanie naturalnie niezrównoważonym wyglądały jak na rysunku 1, możesz dostosować (uogólnić) znaczniki k. Na rysunku 2 linie pokazują granice klastra po uogólnieniu k-średnich:

  • Wykres lewy: brak uogólnienia, przez co granica klastra nie jest intuicyjna.
  • Wykres środkowy: zezwalaj na różne szerokości klastrów, aby tworzyć bardziej intuicyjne klastry o różnych rozmiarach.
  • Prawy wykres: oprócz różnych szerokości klastra dozwolone są różne szerokości na każdy wymiar. W rezultacie klastry są wielokątne zamiast sferyczne, co zwiększa wynik.
Dwa wykresy obok siebie. Pierwszy przykład klastra sferycznego, a drugi – inny.
Ilustracja 2. Przykład klastra kulistego i nieklasowego.

Choć ten kurs nie zawiera uogólnienia k-średnich, pamiętaj, że łatwość jego stosowania to kolejny powód, dla którego jest tak skuteczny. Informacje na temat uogólniania k-średnich znajdziesz w artykule Modelowanie mieszanki K-means Gaussa opracowanym przez Carlosa Guestrin z Uniwersytetu Carnegie Mellon.

Wady k-średnich

Wybieranie \(k\) ręczne.

Zapoznaj się z wykresem „Utracone a klastry”, aby znaleźć optymalne wartości (k). Więcej informacji znajdziesz w sekcji Interpretowanie wyników.

zależne od wartości początkowych;

W przypadku niskich \(k\)możesz zniwelować tę zależność, uruchamiając kilka k-pomenów z różnymi wartościami początkowymi i wybierając najlepszy wynik. W miarę jak \(k\) będziesz potrzebować zaawansowanych wersji k-średnich, aby wybrać lepsze wartości początkowego centroidów (nazywanych rozmnażaniem-kropek). Pełną historię badań nad k-średnim uczeniem znajdziesz w artykule Analiza porównawcza metodologii inicjowania metodą K-Means, którą tworzy M. Emre Celebi, Hassan A. Kingravi, Patricio A. Vela

Dane mapowania o różnych rozmiarach i gęstości.

K-to dane mają problemy z grupowaniem danych o klastrach o różnych rozmiarach i gęstości. Aby zgrupować te dane, musisz uogólnić wskaźniki K w sposób opisany w sekcji Zalety.

Zbieranie wyników odstających.

Centroidy mogą być przeciągane przez odchylenia lub mogą one mieć własny klaster, zamiast być ignorowane. Przed utworzeniem klastra rozważ usunięcie lub przycięcie jego wyników odstających.

Skalowanie z liczbą wymiarów.

Wraz ze wzrostem liczby wymiarów podobieństwo oparte na odległości przekłada się na wartość stałą między dowolnymi przykładami. Zmniejsz wymiary, korzystając z PCA w danych cech lub korzystając z „klastrowania widmowego”, by zmodyfikować algorytm grupowania w sposób opisany poniżej.

Krzywa wymiaru i grupowania widmowego

Te wykresy pokazują, jak stosunek odchylenia standardowego do średniej odległości między przykładami zmniejsza się wraz ze wzrostem liczby wymiarów. To konwencjonowanie oznacza, że wartości k-mecze są mniej skuteczne przy rozróżnianiu przykładów. Negatywny wpływ danych o wysokich wymiarach nazywa się przekleństwem.

3 działki, które pokazują, jak odchylenie standardowe między odległościami zmniejsza się wraz ze wzrostem liczby wymiarów;
Ilustracja 3. Pokazywanie przekleństw Każdy wykres przedstawia parowanie odległości między 200 punktami.

Grupowanie widmowe pozwala uniknąć przecinków, dodając do algorytmu krok początkowy:

  1. Zmniejsz wymiary danych funkcji za pomocą PCA.
  2. Wyświetlaj wszystkie punkty danych w podwymiarowej przestrzeni podrzędnej.
  3. Połącz dane z tego obszaru za pomocą wybranego algorytmu.

Dlatego grupowanie widmowe nie jest oddzielnym algorytmem grupowania, ale etapem wstępnego grupowania, którego możesz użyć z dowolnym algorytmem grupowania. Szczegóły grupowania widmowego są skomplikowane. Zobacz Samouczek na temat widowiska autorstwa Ulrike von Luxburg.