Poiché il clustering non è supervisionato, dati empirici reali sono disponibili per la verifica che consentono di analizzare i dati e visualizzare i risultati. L'assenza di dati reali complica la valutazione della qualità. Inoltre, set di dati reali in genere non offrono cluster ovvi di esempi come mostrato nella Figura 1.
Al contrario, i dati del mondo reale spesso assomigliano di più alla Figura 2, il che rende difficile valutare visivamente la qualità del clustering.
Tuttavia, esistono euristiche e best practice che puoi applicare iterativamente per migliorare la qualità del clustering. Il seguente diagramma di flusso fornisce una Panoramica della valutazione dei risultati del clustering. Approfondiremo ogni passaggio.
Passaggio 1: valuta la qualità del clustering
Innanzitutto, verifica che i cluster abbiano l'aspetto previsto e che gli esempi considerati simili tra loro appaiono nello stesso cluster.
Controlla poi queste metriche di uso comune (non è un elenco esaustivo):
- Cardinalità del cluster
- Grandezza del cluster
- Rendimento downstream
Cardinalità del cluster
La cardinalità dei cluster è il numero di esempi per cluster. Traccia la cardinalità dei cluster per tutti i cluster ed esamina i cluster che sono dei principali outlier. Nella figura 2, questo è il cluster 5.
Grandezza del cluster
La magnitudo del cluster è la somma delle distanze da tutti gli esempi in un cluster al centroide del cluster. Traccia la grandezza di un cluster per tutti i cluster e esaminare gli outlier. Nella figura 3, il cluster 0 è un outlier.
Considera anche la distanza massima o media degli esempi dai centroidi, per cluster, per trovare gli outlier.
Grandezza e cardinalità
Potresti aver notato che una cardinalità del cluster più elevata corrisponde a una maggiore magnitudo del cluster, che ha senso intuitivo, dato che più punti in un (cardinalità), maggiore è la probabile somma delle distanze punti dal baricentro (magnitudine). Puoi anche identificare i cluster anomali cercando quelli in cui questa relazione tra cardinalità e grandezza è molto diverso da quello di altri cluster. Nella Figura 4, l'inserimento di una linea il grafico della cardinalità e della grandezza suggerisce che l'ammasso 0 è anomalo. Anche il cluster 5 è lontano dalla riga, ma se il cluster 0 è stato omesso, la nuova adattata sarebbe molto più vicina al cluster 5).
Rendimento downstream
Poiché gli output di clustering vengono spesso utilizzati nei sistemi ML downstream, le prestazioni del modello downstream migliorano quando cambia il processo di clustering. Ciò offre una valutazione reale della qualità dei risultati di clustering, sebbene possa essere complesso e costoso eseguire questo tipo di test.
Passaggio 2: rivaluta la misura di somiglianza
La qualità del tuo algoritmo di clustering dipende dalla misura di somiglianza. Assicurati che la misura della somiglianza restituisce risultati sensati. Un rapido controllo consiste nel identificare coppie di esempi noti più o meno simili. Calcola il di somiglianza per ogni coppia di esempi e confronta i risultati con le tue conoscenze: le coppie di esempi simili dovrebbero avere una maggiore somiglianza piuttosto che a coppie di esempi diversi.
Gli esempi che utilizzi per verificare a campione la tua misura di somiglianza devono essere rappresentativo del set di dati, quindi puoi avere la certezza che la somiglianza per misurare tutti gli esempi. Il rendimento del tuo di similitudine, manuale o supervisionata, deve essere coerente del set di dati. Se la misura della somiglianza non è coerente per alcuni esempi, questi gli esempi non saranno raggruppati con esempi simili.
Se trovi esempi con punteggi di somiglianza imprecisi, la tua somiglianza misura probabilmente non acquisisce completamente i dati delle caratteristiche che li distinguono esempi. Fai delle prove con la misura della somiglianza finché non ottieni un risultato maggiore risultati accurati e coerenti.
Passaggio 3: trova il numero ottimale di cluster
k-means richiede di decidere il numero di cluster \(k\) in anticipo. Come faccio a sapere determinare un' \(k\)ottimale? Prova a eseguire l'algoritmo con aumentando i valori di \(k\) e prendi nota della somma di tutte le grandezze del cluster. Come \(k\) aumenta, i cluster diventano più piccoli e la distanza totale dei punti a causa delle diminuzioni dei baridi. Possiamo considerare questa distanza totale come una perdita. Traccia questa distanza rispetto al numero di cluster.
Come mostrato nella Figura 5, al di sopra di un certo \(k\), la riduzione della perdita diventa marginale con un aumento \(k\). Valuta l'uso delle \(k\) in cui la pendenza ha prima un cambiamento drastico, chiamato metodo del gomito. Per grafico mostrato, il valore ottimale \(k\) è circa 11. Se preferisci dati più dettagliati cluster, puoi scegliere un valore \(k\)superiore, consultando questo grafico.
Domande sulla risoluzione dei problemi
Se rilevi problemi durante la valutazione, rivaluta i tuoi dati i passaggi di preparazione e la misura di somiglianza scelta. Chiedi:
- I dati sono scalati in modo adeguato?
- La tua misura di somiglianza è corretta?
- L'algoritmo esegue operazioni semanticamente significative sui dati?
- Le ipotesi dell'algoritmo corrispondono ai dati?