Questa sezione illustra i passaggi di preparazione dei dati più pertinenti per il clustering dal Lavorare con i dati numerici in Machine Learning Crash Course.
Nel clustering, viene calcolata la somiglianza tra due esempi combinando tutti i dati delle caratteristiche per quegli esempi in un valore numerico. Ciò richiede caratteristiche per avere la stessa scala, che può essere ottenuta normalizzando, trasformare o creare quantili. Se vuoi trasformare i dati senza controllarne la distribuzione, puoi utilizzare i quantili per impostazione predefinita.
Normalizzazione dei dati
Puoi trasformare i dati di più caratteristiche nella stessa scala normalizzando i dati.
Punteggi z
Ogni volta che vedi un set di dati con la forma approssimativa di Distribuzione gaussiana, occorre calcolare i punteggi z per i dati. I punteggi z indicano il numero di deviazioni standard che un valore proviene dal media. Puoi utilizzare i punteggi z anche quando il set di dati non è abbastanza grande per quantili.
Consulta Scalabilità del punteggio z per rivedere i passaggi.
Ecco una visualizzazione di due caratteristiche di un set di dati, prima e dopo Scalabilità punteggio z:
Nel set di dati non normalizzato a sinistra, Caratteristica 1 e Caratteristica 2, rispettivamente grafici sugli assi x e y, non hanno la stessa scala. Il giorno a sinistra, l'esempio rosso appare più vicina, o più simile, al blu che al giallo. A destra, dopo la scala del punteggio z, caratteristica 1 e caratteristica 2 hanno la stessa scala e il più vicino a quello giallo. Il set di dati normalizzato fornisce misura più accurata della somiglianza tra i punti.
Registra trasformazioni
Quando un set di dati è perfettamente conforme distribuzione della legge energetica, in cui i dati è molto raggruppato ai valori più bassi, usa una trasformazione log. Consulta Scalabilità dei log per rivedere i passaggi.
Ecco una visualizzazione di un set di dati power-law prima e dopo una trasformazione di log:
Prima della scalabilità dei log (Figura 2), l'esempio in rosso appare più simile al giallo. Dopo il ridimensionamento dei log (Figura 3), il rosso appare più simile al blu.
Quantili
Il raggruppamento dei dati in quantili funziona bene quando il set di dati non è conforme in una distribuzione nota. Prendi ad esempio questo set di dati:
Intuitivamente, due esempi sono più simili se solo alcuni esempi rientrano tra a prescindere dai loro valori, e sono più dissimili se molti esempi che rientrano tra loro. La visualizzazione riportata sopra rende difficile vedere il totale numero di esempi che rientrano tra il rosso e il giallo o tra il rosso e il blu.
Questa comprensione della somiglianza può essere evidenziata dividendo il set di dati in quantili, o intervalli, ciascuno dei quali contiene lo stesso numero di esempi, e assegnando l'indice dei quantili a ciascun esempio. Consulta Bucketing dei quantili per rivedere i passaggi.
Ecco la distribuzione precedente divisa in quantili, per cui il rosso è un quantile dal giallo e tre quantili dal blu:
Puoi scegliere qualsiasi numero \(n\) di quantili. Tuttavia, per i quantili rappresentare in modo significativo i dati sottostanti, il set di dati deve contenere almeno \(10n\) esempi. Se non hai dati sufficienti, esegui la normalizzazione.
Verifica le tue conoscenze
Per le seguenti domande, supponiamo di avere dati sufficienti per creare i quantili.
Domanda uno
- La distribuzione dei dati è gaussiana.
- Hai qualche informazione in più su cosa rappresentano i dati nel mondo reale che suggerisce che i dati non devono essere trasformati in modo non lineare.
Domanda due
Dati mancanti
Se il tuo set di dati ha esempi con valori mancanti per una determinata caratteristica, ma che si verificano di rado, puoi rimuoverli. Se questi esempi si verificano di frequente, puoi rimuoverla completamente oppure puoi prevedere i valori mancanti da altri esempi utilizzando una macchina modello di machine learning. Ad esempio, puoi imputare dati numerici mancanti utilizzando un di regressione lineare addestrato sui dati delle caratteristiche esistenti.