Załóżmy, że pracujesz na zbiorze danych, który zawiera informacje o pacjentach systemu opieki zdrowotnej. Zbiór danych jest złożony i obejmuje zarówno kategorie, funkcji liczbowych. Chcesz znaleźć wzorce i podobieństwa w zbiorze danych. Jak możesz podejść do tego zadania?
Klasterowanie jest metodą nienadzorowaną, Metoda uczenia maszynowego stworzona do grupowania przykłady bez etykiet na podstawie ich podobieństwa. (Jeśli przykłady są oznaczone etykietą, rodzaj grupowania jest nazywany klasyfikacji). Rozważmy hipotetycznego pacjenta którego celem jest ocena nowego protokołu leczenia. Podczas badania pacjenci podać, ile razy w tygodniu występują objawy i jaka jest ich nasilenie; objawy. Badacze mogą wykorzystać analizę grupowania, aby pogrupować pacjentów z podobnymi przekształcenia odpowiedzi w klastry. Ilustracja 1 przedstawia jedną z możliwych grup symulowanych danych na 3 klastry.
Patrząc na dane nieoznaczone etykietami po lewej stronie Rysunku 1, można zgadnąć, dane tworzą 3 klastry, nawet bez formalnej definicji podobieństwa. między punktami danych. W rzeczywistych zastosowaniach należy jednak wyraźnie zaznaczyć, określić miara podobieństwa, czyli dane używane do porównywania próbek w argumencie z warunkami cech zbioru danych. Jeśli przykłady zawierają tylko kilka cech, jest prosta wizualizacja i pomiar podobieństw. Jednak gdy liczba liczba funkcji rośnie, łączenie i porównywanie funkcji staje się mniej intuicyjne i bardziej złożony. Różne wskaźniki podobieństwa mogą być mniej lub bardziej odpowiednie w różnych scenariuszach grupowania. Ten kurs dotyczy wyboru odpowiednie wskaźniki podobieństwa (w dalszych sekcjach): Ręczne pomiary podobieństwa oraz Pomiar podobieństwa z wektorów dystrybucyjnych.
Po grupowaniu każda grupa otrzymuje unikalną etykietę, która nazywa się identyfikatorem klastra. Grupowanie daje duże możliwości, ponieważ może uprościć duże, złożone zbiory danych za pomocą do jednego identyfikatora klastra.
Przypadki użycia grupowania
Grupowanie jest przydatne w różnych branżach. Niektóre typowe aplikacje do grupowania:
- Segmentacja rynku
- Analiza sieci społecznościowych
- Grupowanie wyników wyszukiwania
- Diagnostyka obrazowa
- Segmentacja obrazu
- Wykrywanie anomalii
Przykłady grupowania:
- Wykres Hertzsprung-Russella pokazuje gromady gwiazd naniesione na mapę według jasności i temperatury.
- sekwencjonowania genów, które wykazuje wcześniej nieznane podobieństwo genetyczne, różnice między gatunkami prowadzą do zmiany taksonomii na podstawie wyglądu.
- Big 5 opracowano model cech osobowości przez pogrupowanie słów, opisz osobowość na 5 grup. SZESNAK model wykorzystuje 6 klastrów, a nie 5.
Imputacja
Gdy w niektórych przykładach w klastrze brakuje danych cech, można wywnioskować brakuje danych z innych przykładów w klastrze. Jest to tzw. impulacja. Na przykład mniej popularne filmy można połączyć z bardziej popularnymi. aby poprawić rekomendacje filmów.
Kompresja danych
Jak już wspominaliśmy, odpowiedni identyfikator klastra może zastąpić inne funkcje w przypadku wszystkich w tym klastrze. To zastępowanie zmniejsza liczbę cech i Ogranicza w ten sposób zasoby potrzebne do przechowywania, przetwarzania i trenowania modeli dotyczące tych danych. W przypadku bardzo dużych zbiorów danych oszczędności te stają się znaczne.
Dla przykładu pojedynczy film w YouTube może mieć dane cech, takie jak:
- lokalizację, czas i dane demograficzne widzów,
- sygnatury czasowe, tekst i identyfikatory użytkowników
- tagi wideo
Grupowanie filmów w YouTube zastępuje ten zestaw funkcji identyfikatora klastra, co kompresuje dane.
Ochrona prywatności
Możesz nieco zachować prywatność, grupując użytkowników i powiązując ich dane za pomocą identyfikatorów klastrów, a nie identyfikatorów użytkowników. Oto możliwy przykład: aby wytrenować model na użytkownikach YouTube, historię oglądania. Zamiast przekazywać identyfikatory użytkowników do modelu, można pogrupować użytkowników i przekazać tylko identyfikator klastra. Ten zapobiega dołączaniu historii oglądania do poszczególnych użytkowników. Notatka że klaster musi zawierać wystarczająco dużą liczbę użytkowników, ochrony prywatności.