Questa pagina contiene i termini del glossario relativo al clustering. Per tutti i termini del glossario, fai clic qui.
A
clustering agglomerativo
Consulta la sezione relativa al clustering gerarchico.
C
centroid
Il centro di un cluster determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo k-means o k-median trova 3 centroidi.
Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.
Clustering basato su centroidi
Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. K-means è l'algoritmo di clustering basato su centroidi più utilizzato.
È diverso dagli algoritmi di clustering gerarchico.
Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.
clustering
Raggruppamento di esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente assegnare un significato a ogni cluster.
Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means agrupa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:
Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni standard".
Come altro esempio, prendiamo in considerazione un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:
Per ulteriori informazioni, consulta il corso sul clustering.
D
clustering divisive
Consulta la sezione relativa al clustering gerarchico.
H
clustering gerarchico
Una categoria di algoritmi di clustering che creano un albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:
- Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
- Il clustering divisibile raggruppa innanzitutto tutti gli esempi in un cluster e poi lo suddivide in modo iterativo in una struttura ad albero gerarchica.
È diverso dal clustering basato su centroidi.
Per ulteriori informazioni, consulta la sezione Algoritmi di clustering nel corso Clustering.
K
K-means
Un algoritmo di clustering molto utilizzato che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue in sostanza le seguenti operazioni:
- Determina in modo iterativo i migliori punti di centro k (noti come centridi).
- Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.
L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il valore quadrato cumulativo delle distanze da ciascun esempio al centroide più vicino.
Ad esempio, considera il seguente grafico dell'altezza del cane rispetto alla sua larghezza:
Se k=3, l'algoritmo K-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:
Immagina che un produttore voglia determinare le taglie ideali per maglioni per cani di taglia piccola, media e grande. I tre centroidi identificano l'altezza media e la larghezza media di ogni cane nel cluster. Pertanto, il produttore dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.
Le illustrazioni precedenti mostrano k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte funzionalità.
mediana k
Un algoritmo di clustering strettamente correlato al clustering K-means. La differenza pratica tra i due è la seguente:
- In k-means, i centroidi vengono determinati minimizzando la somma dei quadrati della distanza tra un centroide candidato e ciascuno dei suoi esempi.
- In k-median, i centroidi vengono determinati minimizzando la somma della distanza tra un centroide candidato e ciascuno dei suoi esempi.
Tieni presente che anche le definizioni di distanza sono diverse:
- k-means si basa sulla distanza euclidea dal centroide a un esempio. In due dimensioni, la distanza euclidea significa utilizzare il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza di k-means tra (2,2) e (5,-2) è:
- Il k-median si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei variazioni assolute in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) è:
S
misura di somiglianza
Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili due esempi.
schizzo
Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza sugli esempi. Gli algoritmi di sketching utilizzano una funzione hash sensibile alla località per identificare i punti che hanno maggiori probabilità di essere simili e poi raggrupparli in bucket.
Lo schizzo riduce il calcolo necessario per i calcoli di somiglianza su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, calcoliamo la somiglianza solo per ogni coppia di punti all'interno di ogni bucket.
T
analisi delle serie temporali
Un sottocampo del machine learning e della statistica che analizza dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali su base mensile in base ai dati storici sulle vendite.
U
machine learning non supervisionato
Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati non etichettato.
L'utilizzo più comune del machine learning non supervisionato è raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in ambiti come la lotta a comportamenti illeciti e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.
È diverso dal machine learning supervisionato.