Questa pagina contiene i termini del glossario di clustering. Per tutti i termini del glossario, fai clic qui.
A
clustering agglomerativo
Consulta il clustering gerarchico.
C
baricentro
Il centro di un cluster come determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo K-means o K-mediana trova 3 centroidi.
clustering basato su baricentro
Una categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato su baridi più usato.
Sono invece opposti agli algoritmi di clustering gerarchico.
clustering
Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, un utente può facoltativamente fornire il significato a ogni cluster.
Esistono molti algoritmi di clustering. Ad esempio, gli esempi di cluster di algoritmo k-means basati sulla loro vicinanza a un centroide, come nel seguente diagramma:
Un ricercatore potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi a grandezza naturale".
Per un altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:
D
clustering divisivo
Consulta il clustering gerarchico.
V
clustering gerarchico
Una categoria di algoritmi di clustering che crea una struttura di cluster. Il clustering gerarchico è adatto per dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:
- Il clustering agglomerato assegna innanzitutto ogni esempio al proprio cluster, poi unendo iterativamente i cluster più vicini per creare un albero gerarchico.
- Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster, quindi lo suddivide iterativamente in una struttura gerarchica.
Sono invece opposti al clustering basato sul centroide.
K
k-means
Un noto algoritmo di clustering che raggruppa esempi di apprendimento non supervisionato. Fondamentalmente, l'algoritmo K-means esegue quanto segue:
- Determina iterativamente i migliori punti centrali k (noti come centroidi).
- Assegna ogni esempio al baricentro più vicino. Gli esempi più vicini allo stesso baricentro appartengono allo stesso gruppo.
L'algoritmo K-means sceglie le posizioni dei baridi per ridurre al minimo il quadrato cumulativo delle distanze tra ogni esempio e il baricentro più vicino.
Ad esempio, considera il seguente diagramma dell'altezza del cane per la larghezza del cane:
Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al baricentro più vicino, generando tre gruppi:
Immagina che un produttore voglia stabilire le taglie ideali per maglioni per cani di taglia piccola, media e grande. I tre centroidi identificano l'altezza e la larghezza media di ciascun cane dell'ammasso. Quindi, probabilmente il produttore dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il baricentro di un cluster in genere non è un esempio nel cluster.
Le illustrazioni precedenti mostrano il valore k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che K-means può raggruppare esempi in molte caratteristiche.
mediana k
Un algoritmo di clustering strettamente correlato a k-means. La differenza pratica tra i due è la seguente:
- In K-means, i baricentroidi sono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato dei baricentro e ciascuno dei suoi esempi.
- Nella mediana k, i baricentro sono determinati riducendo al minimo la somma della distanza tra un candidato dei centroide e ciascuno dei suoi esempi.
Tieni presente che anche le definizioni di distanza sono diverse:
- k-means si basa sulla distanza euclidea dal baricentro a un esempio. (In due dimensioni, la distanza euclidea significa usare il teorema di Pitagora per calcolare l'ipotenusa.) Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:
- k-mediana si basa sulla distanza di Manhattan dal centroide a un esempio. che è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) sarebbe:
S
misura di somiglianza
Negli algoritmi di clustering, la metrica utilizzata per determinare la somiglianza (il grado di somiglianza) tra due esempi sono.
disegnare
Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza su esempi. Gli algoritmi di schizzi utilizzano una funzione hash sensibile alla località per identificare i punti che potrebbero essere simili, quindi li raggruppano in bucket.
Lo schizzi riduce il calcolo necessario per i calcoli di somiglianza su grandi set di dati. Invece di calcolare la somiglianza per ogni singola paia di esempi nel set di dati, ne calcoliamo la somiglianza solo per ogni paia di punti all'interno di ogni bucket.
T
analisi delle serie temporali
Un campo secondario del machine learning e delle statistiche che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi di serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, puoi utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati di vendita storici.
U
machine learning non supervisionato
Addestramento di un model per trovare pattern in un set di dati, in genere un set di dati non etichettato.
L'uso più comune del machine learning non supervisionato è clustering i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato è in grado di raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di suggerimenti musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini quali anti-abuso e attività fraudolenta, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.
Sono invece a confronto con il machine learning con supervisione.