Ta strona zawiera terminy z glosariusza grupowania. Aby zobaczyć wszystkie terminy ze glosariusza, kliknij tutaj.
O
grupowanie aglomeracyjne
Zobacz sekcję Grupowanie hierarchiczne.
C
centroid
Środek klastra określony za pomocą algorytmu średnich k lub mediany k. Na przykład jeśli k to 3, algorytm k-średnich lub k-mediany znajduje 3 centroidy.
grupowanie oparte na centroidach
Kategoria algorytmów klastrowania, która porządkuje dane w klastry niehierarchiczne. k-średnie to najpopularniejszy algorytm grupowania oparty na centroidach.
W przeciwieństwie do algorytmów klastrowania hierarchicznego.
grupowanie
Grupowanie powiązanych przykładów, zwłaszcza w przypadku nauczania nienadzorowanego. Po zgrupowaniu wszystkich przykładów człowiek może opcjonalnie nadać znaczenie każdej grupie.
Istnieje wiele algorytmów grupowania. Na przykład przykłady klastrów algorytmów k-średnich na podstawie ich odległości od centroida, jak na tym diagramie:
Osoba badawcza może następnie przeanalizować klastry i na przykład oznaczyć klaster 1 jako „drzewa karłowate”, a grupę 2 jako „pełnowymiarowe drzewa”.
Innym przykładem jest algorytm grupowania oparty na odległości od punktu środkowego przykładu przedstawionego w następujący sposób:
D
grupowanie przez podział
Zobacz sekcję Grupowanie hierarchiczne.
H
grupowanie hierarchiczne
Kategoria algorytmów klastrowania, które tworzą drzewo klastrów. Klastry hierarchiczne dobrze nadają się do danych hierarchicznych, takich jak taksonomie botaniczne. Istnieją 2 rodzaje algorytmów klastrowania hierarchicznego:
- Klastry aglomeracyjne najpierw przypisują każdy przykład do własnego klastra, a potem iteracyjnie scalają najbliższe klastry w celu utworzenia drzewa hierarchicznego.
- Grupowanie dzielone najpierw grupuje wszystkie przykłady w jeden klaster, a następnie dzieli klaster w drzewo hierarchiczne.
Porównaj z grupowaniem na podstawie cenroidów.
K
k-średnich
Popularny algorytm klastrowania, który grupuje przykłady w uczeniu nienadzorowanym. Algorytm k-średnich wykonuje w zasadzie te działania:
- iteracyjne określanie najlepszych punktów środkowych (nazywanych centroidami).
- Przypisuje każdy przykład do najbliższego centrum. Te przykłady najbliższe temu samemu centroidowi należą do tej samej grupy.
Algorytm k-średnich wybiera lokalizacje centroidów, aby zminimalizować skumulowany kwadrat odległości od każdego przykładu do najbliższego centrum.
Weźmy na przykład ten wykres wzrostu i szerokości psa:
Jeśli wartość k=3, algorytm k-średnich określi trzy centroidy. Każdy przykład jest przypisywany do najbliższego centrum, co daje 3 grupy:
Załóżmy, że producent chce określić optymalne rozmiary dla małych, średnich i dużych sweterów dla psów. Te 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w gromadzie. Producent sweterów powinien więc zastosować rozmiar swetra w tych trzech centroidach. Pamiętaj, że środek transportu klastra nie jest zwykle przykładem klastra.
Na poprzednich ilustracji widać wartości k – w przykładach tylko 2 cechy (wysokość i szerokość). Pamiętaj, że k-średnie mogą grupować przykłady dla wielu cech.
mediana k
Algorytm grupowania ściśle powiązany ze średnimi k. Praktyczna różnica między nimi jest następująca:
- W przypadku wartości k centroidy są określane przez zminimalizowanie sumy kwadratów odległości między kandydatem do centroidu a każdym z jego przykładów.
- W medianie k centroidy są określane przez zminimalizowanie sumy odległości między kandydatem a każdym z jego przykładów.
Zauważ, że również definicje odległości również są różne:
- Wartość k-średnia zależy od odległości euklidesowej od centrum do przykładu. (W dwóch wymiarach odległość euklidesowa oznacza obliczenie przeciwprostokątnej przy użyciu twierdzenia Pitagorasa). Na przykład odległość k-średnia między (2,2) a (5,–2) będzie wynosić:
- Mediana k zależy od odległości od centrum Manhattanu do przykładu. Jest to suma bezwzględnych delta w poszczególnych wymiarach. Na przykład odległość k-mediana między (2,2) a (5,-2) będzie wynosić:
S
miara podobieństwa
W algorytmach klastrowania wskaźnik służący do określenia, na ile podobne są (jak podobne) są 2 przykłady.
szkicowanie
W nienadzorowanych systemach uczących się jest to kategoria algorytmów, które przeprowadzają wstępną analizę podobieństwa na przykładach. Algorytmy szkicowania korzystają z funkcji haszującej zależnej od lokalizacji, aby identyfikować punkty, które z dużym prawdopodobieństwem są podobne, a następnie grupować je w zasobniki.
Szkicowanie skraca obliczenia wymagane przy obliczaniu podobieństwa w dużych zbiorach danych. Zamiast obliczać podobieństwo dla każdej pojedynczej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zasobniku.
T
analiza ciągów czasowych
Podkategoria systemów uczących się i statystyk, która analizuje dane tymczasowe. Wiele typów problemów związanych z systemami uczącymi się wymaga analizy ciągów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz na przykład użyć analizy ciągów czasowych, aby przewidzieć przyszłą sprzedaż płaszczy zimowych według miesięcy na podstawie historycznych danych o sprzedaży.
U
nienadzorowane systemy uczące się
Trenowanie model służącego do znajdowania wzorców w zbiorze danych, zwykle bez etykiety.
Najpopularniejszym zastosowaniem nienadzorowanych systemów uczących się jest grupowanie danych w grupy podobnych przykładów. Na przykład nienadzorowany algorytm systemów uczących się może grupować utwory według różnych właściwości muzyki. Utworzone w ten sposób klastry mogą stać się danymi wejściowymi dla innych algorytmów systemów uczących się (np. usługi rekomendacji muzycznych). Grupowanie może być przydatne, gdy przydatnych etykiet brakuje lub w ogóle nie ma w nich przydatnych etykiet. Na przykład w domenach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc użytkownikom lepiej zrozumieć dane.
Porównaj je z nadzorowanymi systemami uczącymi się.