Glossario del machine learning: clustering

Questa pagina contiene i termini del glossario di clustering. Per tutti i termini del glossario, fai clic qui.

A

clustering agglomerativo

#clustering

Consulta il clustering gerarchico.

C

baricentro

#clustering

Il centro di un cluster come determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo K-means o K-mediana trova 3 centroidi.

clustering basato su baricentro

#clustering

Una categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. k-means è l'algoritmo di clustering basato su baridi più usato.

Sono invece opposti agli algoritmi di clustering gerarchico.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, un utente può facoltativamente fornire il significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, gli esempi di cluster di algoritmo k-means basati sulla loro vicinanza a un centroide, come nel seguente diagramma:

Un grafico bidimensionale in cui l'asse x è etichettato come larghezza albero e l'asse y è etichettato come altezza albero. Il grafico contiene due centroidi e diverse dozzine di punti dati. I punti dati sono classificati in base alla loro vicinanza. Ciò significa che i punti dati
          più vicini a un baricentro sono classificati come cluster 1, mentre quelli
          più vicini all'altro centroide sono classificati come cluster 2.

Un ricercatore potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi a grandezza naturale".

Per un altro esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi come dei fori intorno al centro di un bersaglio. L'anello più interno dei punti dati è classificato come cluster 1, l'anello centrale è classificato come cluster 2 e l'anello più esterno come cluster 3.

D

clustering divisivo

#clustering

Consulta il clustering gerarchico.

V

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che crea una struttura di cluster. Il clustering gerarchico è adatto per dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

  • Il clustering agglomerato assegna innanzitutto ogni esempio al proprio cluster, poi unendo iterativamente i cluster più vicini per creare un albero gerarchico.
  • Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster, quindi lo suddivide iterativamente in una struttura gerarchica.

Sono invece opposti al clustering basato sul centroide.

K

k-means

#clustering

Un noto algoritmo di clustering che raggruppa esempi di apprendimento non supervisionato. Fondamentalmente, l'algoritmo K-means esegue quanto segue:

  • Determina iterativamente i migliori punti centrali k (noti come centroidi).
  • Assegna ogni esempio al baricentro più vicino. Gli esempi più vicini allo stesso baricentro appartengono allo stesso gruppo.

L'algoritmo K-means sceglie le posizioni dei baridi per ridurre al minimo il quadrato cumulativo delle distanze tra ogni esempio e il baricentro più vicino.

Ad esempio, considera il seguente diagramma dell'altezza del cane per la larghezza del cane:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al baricentro più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, tranne con l'aggiunta di tre centroidi.
          I punti dati precedenti sono raggruppati in tre gruppi distinti,
 ognuno dei quali rappresenta i punti dati più vicini a un determinato
 centroide.

Immagina che un produttore voglia stabilire le taglie ideali per maglioni per cani di taglia piccola, media e grande. I tre centroidi identificano l'altezza e la larghezza media di ciascun cane dell'ammasso. Quindi, probabilmente il produttore dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il baricentro di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano il valore k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che K-means può raggruppare esempi in molte caratteristiche.

mediana k

#clustering

Un algoritmo di clustering strettamente correlato a k-means. La differenza pratica tra i due è la seguente:

  • In K-means, i baricentroidi sono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato dei baricentro e ciascuno dei suoi esempi.
  • Nella mediana k, i baricentro sono determinati riducendo al minimo la somma della distanza tra un candidato dei centroide e ciascuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

  • k-means si basa sulla distanza euclidea dal baricentro a un esempio. (In due dimensioni, la distanza euclidea significa usare il teorema di Pitagora per calcolare l'ipotenusa.) Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-mediana si basa sulla distanza di Manhattan dal centroide a un esempio. che è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) sarebbe:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare la somiglianza (il grado di somiglianza) tra due esempi sono.

disegnare

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare della somiglianza su esempi. Gli algoritmi di schizzi utilizzano una funzione hash sensibile alla località per identificare i punti che potrebbero essere simili, quindi li raggruppano in bucket.

Lo schizzi riduce il calcolo necessario per i calcoli di somiglianza su grandi set di dati. Invece di calcolare la somiglianza per ogni singola paia di esempi nel set di dati, ne calcoliamo la somiglianza solo per ogni paia di punti all'interno di ogni bucket.

T

analisi delle serie temporali

#clustering

Un campo secondario del machine learning e delle statistiche che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi di serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, puoi utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati di vendita storici.

U

machine learning non supervisionato

#clustering
#fundamentals

Addestramento di un model per trovare pattern in un set di dati, in genere un set di dati non etichettato.

L'uso più comune del machine learning non supervisionato è clustering i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato è in grado di raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio, per un servizio di suggerimenti musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini quali anti-abuso e attività fraudolenta, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.

Sono invece a confronto con il machine learning con supervisione.