Ocenianie wyników

Ponieważ grupowanie jest nienadzorowane, Dane podstawowe są dostępne do weryfikacji wyników. Brak prawdy utrudnia ocenę jakości. Ponadto, rzeczywiste zbiory danych zwykle nie oferują oczywistych zbiorów przykładów, jak przykład na rys. 1.

Wykres przedstawiający 3 wyraźne grupy punktów danych.
Rys. 1: Wykres idealnych danych. Rzeczywiste dane rzadko wyglądają tak.

Prawdziwe dane często wyglądają bardziej jak na ilustracji 2, co utrudnia wizualnej oceny jakości grupowania.

Wykres z losowymi punktami danych
Rysunek 2. Bardziej realistyczny wykres danych

Istnieją jednak metody heurystyczne i sprawdzone metody, które można stosować iteracyjnie aby poprawić jakość grupowania. Poniższy schemat blokowy zapewnia o tym, jak ocenić wyniki grupowania. Omówimy każdy krok po kroku krok po kroku.

Schemat blokowy procesu weryfikacji
Kliknij tutaj, aby zobaczyć większą wersję tego wykresu.

Krok 1. Oceń jakość grupowania

Najpierw sprawdź, czy klastry wyglądają zgodnie z oczekiwaniami i czy przykłady które są podobne do siebie w tym samym klastrze.

Następnie przejrzyj najczęściej używane dane (nie jest to wyczerpująca lista):

  • Moc zbioru klastra
  • Wielkość klastra
  • Skuteczność na dalszych etapach

Moc zbioru klastra

Moc zbioru klastra to liczba przykładów na klaster. Narysuj wykres moc zbioru dla wszystkich klastrów i zbadanie klastrów, które mają duże wyjątki. Na grafice 2 jest to klaster 5.

Wykres słupkowy przedstawiający moc zbioru
dla kilku klastrów. Klaster 5 jest mniejszy niż reszta.
Rys. 2. Moc zbioru kilku klastrów.

Wielkość klastra

Wielkość klastra to suma odległości wszystkich przykładów w klastrze. do centroidu klastra. Wyznacz wielkość klastra dla wszystkich klastrów i badać wyniki odstające. Na rys. 3 klaster 0 jest wartością odstającą.

Zwróć też uwagę na maksymalną lub średnią odległość w przykładach od centroidów po gromadę, aby poznać wyniki odstające.

Wykres słupkowy pokazujący natężenie
          dla kilku klastrów. Klaster 0 jest znacznie większy niż pozostałe.
Rys. 3. Siła kilku gromad.

Wielkość a moc zbioru

Być może zauważyliście, że większa moc zbioru odpowiada wielkości klastra, co jest intuicyjne, ponieważ im więcej punktów gromada (moc zbioru), tym większa prawdopodobna suma odległości punktów od centroidu (magnitudy). Możesz też wykrywać nietypowe klastry poszukując tych, w których występuje zależność między mocą zbioru a mocą bardzo różni się od innych klastrów. Na rys. 4 dopasowanie linii do wykres mocy zbioru i wielkości wskazuje, że klaster 0 jest anomalią. (Klaster 5 jest również oddalony od linii, ale jeśli klaster 0 został pominięty, nowy dopasowana linia jest znacznie bliższa klastra 5).

Wykres punktowy przedstawiający
          między mocą zbioru i ilością w kilku klastrach. Jeden
          jest cechą odstającą od fabuły.
Rysunek 4. Moc zbioru a magnituda dla wcześniej pokazanych klastrów.

Skuteczność na dalszych etapach

Ponieważ dane wyjściowe grupowania są często używane w kolejnych systemach ML, sprawdź, czy wydajność modelu na kolejnych etapach zwiększa się, gdy zmienia się proces grupowania. Zapewnia to realną ocenę jakości wyników grupowania, choć przeprowadzenie tego typu testów może być skomplikowane i kosztowne.

Krok 2. Ponownie określ miarę podobieństwa

Algorytm grupowania jest tak dobry, jak Twój miernik podobieństwa. Upewnij się, miara podobieństwa zwraca rozsądne wyniki. Aby to zrobić, identyfikować pary przykładów, o których wiemy, że są bardziej lub mniej podobne. Oblicz podobieństw dla każdej pary przykładów i porównując wyniki z Twoja wiedza: pary podobnych przykładów powinny być bardziej podobne mierz niż pary odmiennych przykładów.

Przykłady, których używasz do wykrywania podobieństw, powinny mieć jest reprezentatywna dla zbioru danych, więc możesz mieć pewność, że Twoje podobieństwo mierz blokady dla wszystkich przykładów. Skuteczność Pomiar podobieństwa (ręczny lub nadzorowany) musi być spójny w gromadzeniu danych. Jeśli miara podobieństwa jest niespójna w przypadku niektórych przykładów, nie będą grupowane z podobnymi przykładami.

Jeśli znajdziesz przykłady z niedokładnymi wynikami podobieństwa, prawdopodobnie nie w pełni rejestruje dane cech, które je odróżniają przykłady. Eksperymentuj z wskaźnikiem podobieństwa, aż zwróci on więcej dokładne i spójne wyniki.

Krok 3. Znajdź optymalną liczbę klastrów

Liczbę k-średnich wymaga wcześniejszego określenia liczby klastrów \(k\) . Jak określasz optymalny \(k\)? Spróbuj uruchomić algorytm, używając rosnące wartości \(k\) , zwracając uwagę na sumę wszystkich wielkości klastrów. Jako \(k\) wzrasta, klastry stają się mniejsze, a łączna odległość punktów od centroidów. Taki dystans możemy potraktować jak stratę. Porównaj tę odległość z liczbą klastrów.

Jak widać na Rysunku 5, powyżej pewnej wartości \(k\)spadek straty staje się krańcowych ze wzrostem \(k\). Rozważ użycie \(k\) gdzie nachylenie powoduje znaczącą zmianę, nazywaną metodą łokcia. W przypadku atrybutu dla podanego wykresu, optymalna \(k\) wynosi około 11. Jeśli wolisz bardziej szczegółowe informacje i klastra, możesz wybrać wyższy \(k\), konsultując się z tym wykresem.

Wykres przedstawiający stratę
w porównaniu z używanymi klastrami. Strata maleje w miarę wzrostu liczby klastrów do
wynosi na poziomie 10 klastrów
Rysunek 5. Utrata a liczba klastrów

Pytania dotyczące rozwiązywania problemów

Jeśli podczas oceny zauważysz problemy, ponownie oceń dane kroki przygotowania i wybrany wskaźnik podobieństwa. Zadaj sobie pytanie:

  • Czy dane są odpowiednio skalowane?
  • Czy miara podobieństwa jest prawidłowa?
  • Czy Twój algorytm wykonuje na danych operacje istotne semantycznie?
  • Czy założenia algorytmu są zgodne z danymi?