Ponieważ grupowanie jest nienadzorowane, Dane podstawowe są dostępne do weryfikacji wyników. Brak prawdy utrudnia ocenę jakości. Ponadto, rzeczywiste zbiory danych zwykle nie oferują oczywistych zbiorów przykładów, jak przykład na rys. 1.
Prawdziwe dane często wyglądają bardziej jak na ilustracji 2, co utrudnia wizualnej oceny jakości grupowania.
Istnieją jednak metody heurystyczne i sprawdzone metody, które można stosować iteracyjnie aby poprawić jakość grupowania. Poniższy schemat blokowy zapewnia o tym, jak ocenić wyniki grupowania. Omówimy każdy krok po kroku krok po kroku.
Krok 1. Oceń jakość grupowania
Najpierw sprawdź, czy klastry wyglądają zgodnie z oczekiwaniami i czy przykłady które są podobne do siebie w tym samym klastrze.
Następnie przejrzyj najczęściej używane dane (nie jest to wyczerpująca lista):
- Moc zbioru klastra
- Wielkość klastra
- Skuteczność na dalszych etapach
Moc zbioru klastra
Moc zbioru klastra to liczba przykładów na klaster. Narysuj wykres moc zbioru dla wszystkich klastrów i zbadanie klastrów, które mają duże wyjątki. Na grafice 2 jest to klaster 5.
Wielkość klastra
Wielkość klastra to suma odległości wszystkich przykładów w klastrze. do centroidu klastra. Wyznacz wielkość klastra dla wszystkich klastrów i badać wyniki odstające. Na rys. 3 klaster 0 jest wartością odstającą.
Zwróć też uwagę na maksymalną lub średnią odległość w przykładach od centroidów po gromadę, aby poznać wyniki odstające.
Wielkość a moc zbioru
Być może zauważyliście, że większa moc zbioru odpowiada wielkości klastra, co jest intuicyjne, ponieważ im więcej punktów gromada (moc zbioru), tym większa prawdopodobna suma odległości punktów od centroidu (magnitudy). Możesz też wykrywać nietypowe klastry poszukując tych, w których występuje zależność między mocą zbioru a mocą bardzo różni się od innych klastrów. Na rys. 4 dopasowanie linii do wykres mocy zbioru i wielkości wskazuje, że klaster 0 jest anomalią. (Klaster 5 jest również oddalony od linii, ale jeśli klaster 0 został pominięty, nowy dopasowana linia jest znacznie bliższa klastra 5).
Skuteczność na dalszych etapach
Ponieważ dane wyjściowe grupowania są często używane w kolejnych systemach ML, sprawdź, czy wydajność modelu na kolejnych etapach zwiększa się, gdy zmienia się proces grupowania. Zapewnia to realną ocenę jakości wyników grupowania, choć przeprowadzenie tego typu testów może być skomplikowane i kosztowne.
Krok 2. Ponownie określ miarę podobieństwa
Algorytm grupowania jest tak dobry, jak Twój miernik podobieństwa. Upewnij się, miara podobieństwa zwraca rozsądne wyniki. Aby to zrobić, identyfikować pary przykładów, o których wiemy, że są bardziej lub mniej podobne. Oblicz podobieństw dla każdej pary przykładów i porównując wyniki z Twoja wiedza: pary podobnych przykładów powinny być bardziej podobne mierz niż pary odmiennych przykładów.
Przykłady, których używasz do wykrywania podobieństw, powinny mieć jest reprezentatywna dla zbioru danych, więc możesz mieć pewność, że Twoje podobieństwo mierz blokady dla wszystkich przykładów. Skuteczność Pomiar podobieństwa (ręczny lub nadzorowany) musi być spójny w gromadzeniu danych. Jeśli miara podobieństwa jest niespójna w przypadku niektórych przykładów, nie będą grupowane z podobnymi przykładami.
Jeśli znajdziesz przykłady z niedokładnymi wynikami podobieństwa, prawdopodobnie nie w pełni rejestruje dane cech, które je odróżniają przykłady. Eksperymentuj z wskaźnikiem podobieństwa, aż zwróci on więcej dokładne i spójne wyniki.
Krok 3. Znajdź optymalną liczbę klastrów
Liczbę k-średnich wymaga wcześniejszego określenia liczby klastrów \(k\) . Jak określasz optymalny \(k\)? Spróbuj uruchomić algorytm, używając rosnące wartości \(k\) , zwracając uwagę na sumę wszystkich wielkości klastrów. Jako \(k\) wzrasta, klastry stają się mniejsze, a łączna odległość punktów od centroidów. Taki dystans możemy potraktować jak stratę. Porównaj tę odległość z liczbą klastrów.
Jak widać na Rysunku 5, powyżej pewnej wartości \(k\)spadek straty staje się krańcowych ze wzrostem \(k\). Rozważ użycie \(k\) gdzie nachylenie powoduje znaczącą zmianę, nazywaną metodą łokcia. W przypadku atrybutu dla podanego wykresu, optymalna \(k\) wynosi około 11. Jeśli wolisz bardziej szczegółowe informacje i klastra, możesz wybrać wyższy \(k\), konsultując się z tym wykresem.
Pytania dotyczące rozwiązywania problemów
Jeśli podczas oceny zauważysz problemy, ponownie oceń dane kroki przygotowania i wybrany wskaźnik podobieństwa. Zadaj sobie pytanie:
- Czy dane są odpowiednio skalowane?
- Czy miara podobieństwa jest prawidłowa?
- Czy Twój algorytm wykonuje na danych operacje istotne semantycznie?
- Czy założenia algorytmu są zgodne z danymi?