Valutazione dei risultati

Poiché il clustering non è supervisionato, dati empirici reali sono disponibili per la verifica che consentono di analizzare i dati e visualizzare i risultati. L'assenza di dati reali complica la valutazione della qualità. Inoltre, set di dati reali in genere non offrono cluster ovvi di esempi come mostrato nella Figura 1.

Grafico che mostra tre chiari gruppi di punti dati
Figura 1: un grafico di dati ideale. Raramente i dati reali hanno un aspetto simile a questo.

Al contrario, i dati del mondo reale spesso assomigliano di più alla Figura 2, il che rende difficile valutare visivamente la qualità del clustering.

Grafico con punti dati casuali
Figura 2: grafico dei dati più realistico

Tuttavia, esistono euristiche e best practice che puoi applicare iterativamente per migliorare la qualità del clustering. Il seguente diagramma di flusso fornisce una Panoramica della valutazione dei risultati del clustering. Approfondiremo ogni passaggio.

Immagine di un diagramma di flusso della procedura di verifica
Fai clic qui per visualizzare una versione più grande di questo grafico.

Passaggio 1: valuta la qualità del clustering

Innanzitutto, verifica che i cluster abbiano l'aspetto previsto e che gli esempi considerati simili tra loro appaiono nello stesso cluster.

Controlla poi queste metriche di uso comune (non è un elenco esaustivo):

  • Cardinalità del cluster
  • Grandezza del cluster
  • Rendimento downstream

Cardinalità del cluster

La cardinalità dei cluster è il numero di esempi per cluster. Traccia la cardinalità dei cluster per tutti i cluster ed esamina i cluster che sono dei principali outlier. Nella figura 2, questo è il cluster 5.

Un grafico a barre che mostra la cardinalità
di vari cluster. Il cluster 5 è più piccolo del resto.
Figura 2: cardinalità di diversi cluster.

Grandezza del cluster

La magnitudo del cluster è la somma delle distanze da tutti gli esempi in un cluster al centroide del cluster. Traccia la grandezza di un cluster per tutti i cluster e esaminare gli outlier. Nella figura 3, il cluster 0 è un outlier.

Considera anche la distanza massima o media degli esempi dai centroidi, per cluster, per trovare gli outlier.

Un grafico a barre che mostra la grandezza
          diversi cluster. Il cluster 0 è molto più grande degli altri.
. Figura 3: grandezza di diversi cluster.

Grandezza e cardinalità

Potresti aver notato che una cardinalità del cluster più elevata corrisponde a una maggiore magnitudo del cluster, che ha senso intuitivo, dato che più punti in un (cardinalità), maggiore è la probabile somma delle distanze punti dal baricentro (magnitudine). Puoi anche identificare i cluster anomali cercando quelli in cui questa relazione tra cardinalità e grandezza è molto diverso da quello di altri cluster. Nella Figura 4, l'inserimento di una linea il grafico della cardinalità e della grandezza suggerisce che l'ammasso 0 è anomalo. Anche il cluster 5 è lontano dalla riga, ma se il cluster 0 è stato omesso, la nuova adattata sarebbe molto più vicina al cluster 5).

Un grafico a dispersione che mostra
          tra la cardinalità e la grandezza di diversi cluster. Uno.
          è un outlier nel grafico.
. Figura 4: cardinalità e grandezza per i cluster mostrati in precedenza.

Rendimento downstream

Poiché gli output di clustering vengono spesso utilizzati nei sistemi ML downstream, le prestazioni del modello downstream migliorano quando cambia il processo di clustering. Ciò offre una valutazione reale della qualità dei risultati di clustering, sebbene possa essere complesso e costoso eseguire questo tipo di test.

Passaggio 2: rivaluta la misura di somiglianza

La qualità del tuo algoritmo di clustering dipende dalla misura di somiglianza. Assicurati che la misura della somiglianza restituisce risultati sensati. Un rapido controllo consiste nel identificare coppie di esempi noti più o meno simili. Calcola il di somiglianza per ogni coppia di esempi e confronta i risultati con le tue conoscenze: le coppie di esempi simili dovrebbero avere una maggiore somiglianza piuttosto che a coppie di esempi diversi.

Gli esempi che utilizzi per verificare a campione la tua misura di somiglianza devono essere rappresentativo del set di dati, quindi puoi avere la certezza che la somiglianza per misurare tutti gli esempi. Il rendimento del tuo di similitudine, manuale o supervisionata, deve essere coerente del set di dati. Se la misura della somiglianza non è coerente per alcuni esempi, questi gli esempi non saranno raggruppati con esempi simili.

Se trovi esempi con punteggi di somiglianza imprecisi, la tua somiglianza misura probabilmente non acquisisce completamente i dati delle caratteristiche che li distinguono esempi. Fai delle prove con la misura della somiglianza finché non ottieni un risultato maggiore risultati accurati e coerenti.

Passaggio 3: trova il numero ottimale di cluster

k-means richiede di decidere il numero di cluster \(k\) in anticipo. Come faccio a sapere determinare un' \(k\)ottimale? Prova a eseguire l'algoritmo con aumentando i valori di \(k\) e prendi nota della somma di tutte le grandezze del cluster. Come \(k\) aumenta, i cluster diventano più piccoli e la distanza totale dei punti a causa delle diminuzioni dei baridi. Possiamo considerare questa distanza totale come una perdita. Traccia questa distanza rispetto al numero di cluster.

Come mostrato nella Figura 5, al di sopra di un certo \(k\), la riduzione della perdita diventa marginale con un aumento \(k\). Valuta l'uso delle \(k\) in cui la pendenza ha prima un cambiamento drastico, chiamato metodo del gomito. Per grafico mostrato, il valore ottimale \(k\) è circa 11. Se preferisci dati più dettagliati cluster, puoi scegliere un valore \(k\)superiore, consultando questo grafico.

Un grafico che mostra la perdita
rispetto ai cluster utilizzati. La perdita diminuisce con l'aumento del numero di cluster fino a quando
si allinea intorno a 10 cluster
. Figura 5: perdita rispetto al numero di cluster

Domande sulla risoluzione dei problemi

Se rilevi problemi durante la valutazione, rivaluta i tuoi dati i passaggi di preparazione e la misura di somiglianza scelta. Chiedi:

  • I dati sono scalati in modo adeguato?
  • La tua misura di somiglianza è corretta?
  • L'algoritmo esegue operazioni semanticamente significative sui dati?
  • Le ipotesi dell'algoritmo corrispondono ai dati?