Glossario del machine learning: clustering

Questa pagina contiene i termini del glossario relativo al clustering. Per tutti i termini del glossario, fai clic qui.

A

clustering agglomerativo

#clustering

Consulta la sezione relativa al clustering gerarchico.

C

centroid

#clustering

Il centro di un cluster determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo k-means o k-median trova 3 centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.

Clustering basato su centroidi

#clustering

Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. K-means è l'algoritmo di clustering basato su centroidi più utilizzato.

È diverso dagli algoritmi di clustering gerarchico.

Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.

clustering

#clustering

Raggruppamento di esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente assegnare un significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means agrupa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:

Un grafico bidimensionale in cui l'asse x è etichettato come larghezza dell'albero e l'asse y come altezza dell'albero. Il grafico contiene due
          centroidi e diverse dozzine di punti dati. I punti dati vengono
          classificati in base alla loro vicinanza. In altre parole, i punti dati
          più vicini a un centroide sono classificati come cluster 1, mentre quelli
          più vicini all'altro centroide sono classificati come cluster 2.

Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni standard".

Come altro esempio, prendiamo in considerazione un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi come fori intorno al centro di una tavola da freccette. L'anello più interno
          dei punti dati è classificato come cluster 1, l'anello intermedio
          è classificato come cluster 2 e l'anello più esterno come
          cluster 3.

Per ulteriori informazioni, consulta il corso sul clustering.

D

clustering divisive

#clustering

Consulta la sezione relativa al clustering gerarchico.

H

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano un albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

  • Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
  • Il clustering divisibile raggruppa innanzitutto tutti gli esempi in un cluster e poi lo suddivide in modo iterativo in una struttura ad albero gerarchica.

È diverso dal clustering basato su centroidi.

Per ulteriori informazioni, consulta la sezione Algoritmi di clustering nel corso Clustering.

K

K-means

#clustering

Un algoritmo di clustering molto utilizzato che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue in sostanza le seguenti operazioni:

  • Determina in modo iterativo i migliori punti di centro k (noti come centridi).
  • Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.

L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il valore quadrato cumulativo delle distanze da ciascun esempio al centroide più vicino.

Ad esempio, considera il seguente grafico dell'altezza del cane rispetto alla sua larghezza:

Un grafico cartesiano con diverse dozzine di punti dati.

Se k=3, l'algoritmo K-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, tranne che per la presenza di tre centroidi.
          I punti dati precedenti sono raggruppati in tre gruppi distinti,
          ciascuno dei quali rappresenta i punti dati più vicini a un determinato
          centroide.

Immagina che un produttore voglia determinare le taglie ideali per maglioni per cani di taglia piccola, media e grande. I tre centroidi identificano l'altezza media e la larghezza media di ogni cane nel cluster. Pertanto, il produttore dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte funzionalità.

mediana k

#clustering

Un algoritmo di clustering strettamente correlato al clustering K-means. La differenza pratica tra i due è la seguente:

  • In k-means, i centroidi vengono determinati minimizzando la somma dei quadrati della distanza tra un centroide candidato e ciascuno dei suoi esempi.
  • In k-median, i centroidi vengono determinati minimizzando la somma della distanza tra un centroide candidato e ciascuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

  • k-means si basa sulla distanza euclidea dal centroide a un esempio. In due dimensioni, la distanza euclidea significa utilizzare il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza di k-means tra (2,2) e (5,-2) è:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • Il k-median si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei variazioni assolute in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) è:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili due esempi.

schizzo

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza sugli esempi. Gli algoritmi di sketching utilizzano una funzione hash sensibile alla località per identificare i punti che hanno maggiori probabilità di essere simili e poi raggrupparli in bucket.

Lo schizzo riduce il calcolo necessario per i calcoli di somiglianza su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, calcoliamo la somiglianza solo per ogni coppia di punti all'interno di ogni bucket.

T

analisi delle serie temporali

#clustering

Un sottocampo del machine learning e della statistica che analizza dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali su base mensile in base ai dati storici sulle vendite.

U

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere un set di dati non etichettato.

L'utilizzo più comune del machine learning non supervisionato è raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in ambiti come la lotta a comportamenti illeciti e frodi, i cluster possono aiutare le persone a comprendere meglio i dati.

È diverso dal machine learning supervisionato.