Che cos'è il clustering?

Supponiamo che tu stia lavorando con un set di dati che include informazioni sui pazienti sistema sanitario locale. Il set di dati è complesso e include sia dati categorici che caratteristiche numeriche. Vuoi trovare pattern e somiglianze nel set di dati. Come potresti approcciarti a questa attività?

Il clustering è un modello non supervisionato una tecnica di machine learning progettata per raggruppare esempi senza etichetta in base alla somiglianza tra loro. (Se gli esempi sono etichettati, di raggruppamento è chiamato classificazione). Consideriamo un paziente ipotetico studio progettato per valutare un nuovo protocollo di trattamento. Durante lo studio, i pazienti segnalare quante volte a settimana manifestano i sintomi e la gravità sintomi. I ricercatori possono utilizzare l'analisi di clustering per raggruppare pazienti con simili in cluster. La figura 1 mostra un possibile raggruppamento di dati simulati in tre cluster.

A sinistra, un grafico di gravità dei sintomi e conteggio dei sintomi
   mostra i punti dati che suggeriscono tre cluster.
   A destra, lo stesso grafico ma con ognuno dei tre cluster colorati.
Figura 1: esempi senza etichetta raggruppati in tre cluster (dati simulati).

Osservando i dati senza etichetta a sinistra della Figura 1, si può ipotizzare che i dati formano tre cluster, anche senza una definizione formale di somiglianza tra i punti dati. Nelle applicazioni reali, tuttavia, è necessario esplicitamente definisci una misura di similitudine, o la metrica utilizzata per confrontare i campioni, in termini delle caratteristiche del set di dati. Quando gli esempi hanno solo un paio di caratteristiche, visualizzare e misurare le somiglianze è semplice. Ma poiché il numero l'aumento di funzionalità, la combinazione e il confronto tra le funzionalità diventano meno intuitive e più complesso. Misure di somiglianza diverse possono essere più o meno appropriate per diversi scenari di clustering, e in questo corso parleremo di scegliere una un'adeguata misura di somiglianza nelle sezioni successive: Misure di similitudine manuali e Misura della somiglianza dagli incorporamenti.

Dopo il clustering, a ogni gruppo viene assegnata un'etichetta univoca denominata ID cluster. Il clustering è potente perché può semplificare set di dati complessi e di grandi dimensioni con molte caratteristiche a un singolo ID cluster.

Clustering dei casi d'uso

Il clustering è utile in diversi settori. Alcune applicazioni comuni per il clustering:

  • Segmentazione del mercato
  • Analisi dei social network
  • Raggruppamento dei risultati di ricerca
  • Diagnostica per immagini
  • Segmentazione dell'immagine
  • Rilevamento di anomalie

Alcuni esempi specifici di clustering:

  • Il diagramma di Hertzsprung-Russell mostra i cluster di stelle se tracciati in base alla luminosità e alla temperatura.
  • Il sequenziamento genico che mostra somiglianze e genetiche precedentemente sconosciute le differenze tra le specie hanno portato alla revisione delle tassonomie in base alle apparizioni in passato.
  • Il Big 5 delle caratteristiche della personalità è stato sviluppato raggruppando le parole che descrivere la personalità in 5 gruppi. La ESACO usa 6 cluster invece di 5.

Imputazione

Quando alcuni esempi in un cluster hanno dati sulle caratteristiche mancanti, puoi dedurre mancano dati di altri esempi nel cluster. Questo processo è chiamato l'imputazione. Ad esempio, i video meno popolari possono essere raggruppati insieme a quelli più popolari. per migliorare i consigli sui video.

Compressione dati

Come già detto, l'ID cluster pertinente può sostituire le altre funzionalità per tutti di esempio in quel cluster. Questa sostituzione riduce il numero di caratteristiche e riduce anche le risorse necessarie per archiviare, elaborare e addestrare i modelli su questi dati. Per set di dati molto grandi, questi risparmi diventano significativi.

Per fare un esempio, un singolo video di YouTube può avere dati sulle funzionalità tra cui:

  • località, ora e dati demografici dello spettatore
  • timestamp dei commenti, testo e ID utente
  • Tag video

Il raggruppamento dei video di YouTube sostituisce questo insieme di funzionalità con una ID cluster singolo, quindi comprimendo i dati.

Tutela della privacy

Puoi preservare in qualche modo la privacy raggruppando gli utenti e associando i dati utente con ID cluster anziché con ID utente. Per fare un possibile esempio, supponi di volere di addestrare un modello sulla piattaforma cronologia delle visualizzazioni. Invece di trasmettere gli ID utente al modello, potresti raggruppare gli utenti e passare solo l'ID cluster. Questo impedisce che le singole cronologie delle visualizzazioni siano associate ai singoli utenti. Nota il cluster deve contenere un numero sufficientemente elevato di utenti per di tutela della privacy.