Ta strona zawiera pojęcia z glosariusza dotyczącej klastrowania. Aby poznać wszystkie terminy z glosariusza, kliknij tutaj.
A
klastering aglomeracyjny
Zobacz hierarchiczne grupowanie.
C
centroid
Środek klastra określony przez algorytm k-średnich lub k-median. Jeśli na przykład k = 3, algorytm k-średnich lub k-median znajdzie 3 centroidy.
Więcej informacji znajdziesz w sekcji Algorytmy klastrowe w Kursie z klastrów.
grupowanie na podstawie centroidów
Kategoria algorytmów grupowania, które porządkują dane w grupy niehierarchiczne. Algorytm k-średnich to najczęściej używany algorytm grupowania oparty na środku ciężkości.
Porównaj z algorytmami hierarchicznego grupowania.
Więcej informacji znajdziesz w sekcji Algorytmy klastrowe w Kursie z klastrów.
grupowanie
grupowanie powiązanych przykładów, zwłaszcza podczas nauki nienadzorowanej. Gdy wszystkie przykłady zostaną pogrupowane, użytkownik może opcjonalnie nadać znaczenie poszczególnym klasterom.
Istnieje wiele algorytmów grupowania. Na przykład algorytm k-średnich grupował przykłady według ich bliskości do środka ciężkości, jak widać na tym diagramie:
Następnie badacz może przejrzeć klastry i na przykład oznaczyć klaster 1 jako „karłowate drzewa”, a klaster 2 jako „drzewa w normalnym rozmiarze”.
Innym przykładem jest algorytm grupowania oparty na odległości przykładu od punktu środkowego, jak pokazano na ilustracji:
Więcej informacji znajdziesz w Kursie dotyczącym klasteringu.
D
podział na podzbiory
Zobacz hierarchiczne grupowanie.
H
grupowanie hierarchiczne
Kategoria algorytmów klasterowania, które tworzą drzewo klastrów. Gromadzenie hierarchiczne jest odpowiednie do danych hierarchicznych, takich jak systemy klasyfikacji biologicznej. Istnieją 2 rodzaje hierarchicznych algorytmów grupowania:
- Klasterowanie aglomeracyjne polega na przypisaniu każdego przykładu do własnego klastra, a następnie na iteracyjnym łączeniu najbliższych klastrów w celu utworzenia hierarchicznego drzewa.
- Klasteryzacja dzieląca najpierw grupuje wszystkie przykłady w jeden klaster, a potem dzieli go iteracyjnie na drzewo hierarchiczne.
Porównaj z zagnieżdżonym zgrupowaniem na podstawie środka ciężkości.
Więcej informacji znajdziesz w sekcji Algorytmy klastrowania w Kursie z klasteringu.
K
k-średnich
Popularny algorytm zagnieżdżonego podziału, który grupował przykłady w ramach uczenia się nienadzorowanego. Algorytm k-średnich wykonuje te czynności:
- Metoda iteracyjna określa najlepsze k punktów środkowych (zwanych centroidami).
- Przypisuje każdy przykład do najbliższego centroidu. Przykłady, które są najbliżej tego samego centroidu, należą do tej samej grupy.
Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować kwadrat odległości od każdego przykładu do najbliższego centroidu.
Rozważ na przykład wykres wysokości i szerokości psa:
Jeśli k=3, algorytm k-średnich określi 3 centroidy. Każdy przykład jest przypisany do najbliższego centroidu, co daje 3 grupy:
Załóżmy, że producent chce określić idealne rozmiary małych, średnich i dużych swetrów dla psów. 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w danym klastrze. Dlatego producent powinien określić rozmiary swetrów na podstawie tych trzech centroidów. Pamiętaj, że centrum ciężkości klastra zwykle nie jest przykładem w klastrze.
Poprzednie ilustracje pokazują algorytm k-średnich w przypadku przykładów z tylko dwoma cechami (wysokość i szerokość). Pamiętaj, że metoda k-średnich może grupować przykłady według wielu cech.
k-mediana
Algorytm grupowania blisko związany z grupowaniem k-średnich. Praktyczna różnica między tymi 2 elementami:
- W metodzie k-średnich centroidy są określane przez minimalizowanie sumy kwadratów odległości między kandydatem na centroid a każdym z jego przykładów.
- W metodzie k-median centroidy są określane przez minimalizowanie sumy odległości między kandydatem na centroid a każdym z jego przykładów.
Pamiętaj, że definicje odległości również się różnią:
- Grupowanie k-średnich opiera się na odległości euklidesowej od centroida do przykładu. (W 2 wymiarach odległość euklidesowa oznacza użycie twierdzenia Pitagorasa do obliczenia przeciwprostokątnej). Na przykład odległość k-średnich między (2,2) a (5,-2) wynosi:
- K-mediana opiera się na odległości Manhattana od centroida do przykładu. Ta odległość to suma bezwzględnych różnic w każdym wymiarze. Na przykład odległość k-mediany między (2,2) a (5,-2) wynosi:
S
miara podobieństwa
W algorytmach zagnieżdżania jest to miara służąca do określania, na ile podobne (czyli podobne) są 2 dowolne przykłady.
szkicowanie
W nienadzorowanym systemie uczącym się, czyli kategorii algorytmów, które wykonują wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania używają funkcji haszującej wrażliwej na lokalizację do identyfikowania punktów, które są prawdopodobnie podobne, a następnie grupowania ich w worki.
Szkicowanie zmniejsza liczbę obliczeń wymaganych do obliczenia podobieństwa w przypadku dużych zbiorów danych. Zamiast obliczać podobieństwo dla każdej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zbiorze.
T
analiza szeregów czasowych
Poddziedzina systemów uczących się i statystyki, która analizuje dane czasowe. Wiele typów problemów z uczenia maszynowego wymaga analizy szeregów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy szeregów czasowych, aby prognozować przyszłe sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.
U
uczenie maszynowe bez nadzoru
Trenowanie modelu w celu znajdowania wzorców w zbiorze danych, zwykle zbiorze danych bez etykiet.
Najczęstszym zastosowaniem uczenia maszynowego nienadzorowanego jest zgrupowanie danych w grupy podobnych przykładów. Na przykład algorytm uczenia maszynowego bez nadzoru może grupować utwory na podstawie różnych właściwości muzyki. Uzyskane klastry mogą stać się danymi wejściowymi dla innych algorytmów uczenia maszynowego (np. dla usługi rekomendacji muzycznej). Grupowanie może być przydatne, gdy przydatnych etykiet jest niewiele lub ich brak. Na przykład w przypadku domen takich jak zapobieganie nadużyciom i oszustwo klastry mogą pomóc ludziom lepiej zrozumieć dane.
W odróżnieniu od nadzorowanego uczenia maszynowego.