Preparazione dei dati

Questa sezione illustra i passaggi di preparazione dei dati più pertinenti per il clustering dal Lavorare con i dati numerici in Machine Learning Crash Course.

Nel clustering, viene calcolata la somiglianza tra due esempi combinando tutti i dati delle caratteristiche per quegli esempi in un valore numerico. Ciò richiede caratteristiche per avere la stessa scala, che può essere ottenuta normalizzando, trasformare o creare quantili. Se vuoi trasformare i dati senza controllarne la distribuzione, puoi utilizzare i quantili per impostazione predefinita.

Normalizzazione dei dati

Puoi trasformare i dati di più caratteristiche nella stessa scala normalizzando i dati.

Punteggi z

Ogni volta che vedi un set di dati con la forma approssimativa di Distribuzione gaussiana, occorre calcolare i punteggi z per i dati. I punteggi z indicano il numero di deviazioni standard che un valore proviene dal media. Puoi utilizzare i punteggi z anche quando il set di dati non è abbastanza grande per quantili.

Consulta Scalabilità del punteggio z per rivedere i passaggi.

Ecco una visualizzazione di due caratteristiche di un set di dati, prima e dopo Scalabilità punteggio z:

Due grafici che confrontano i dati delle caratteristiche prima e dopo la normalizzazione
Figura 1: confronto dei dati delle caratteristiche prima e dopo la normalizzazione.

Nel set di dati non normalizzato a sinistra, Caratteristica 1 e Caratteristica 2, rispettivamente grafici sugli assi x e y, non hanno la stessa scala. Il giorno a sinistra, l'esempio rosso appare più vicina, o più simile, al blu che al giallo. A destra, dopo la scala del punteggio z, caratteristica 1 e caratteristica 2 hanno la stessa scala e il più vicino a quello giallo. Il set di dati normalizzato fornisce misura più accurata della somiglianza tra i punti.

Registra trasformazioni

Quando un set di dati è perfettamente conforme distribuzione della legge energetica, in cui i dati è molto raggruppato ai valori più bassi, usa una trasformazione log. Consulta Scalabilità dei log per rivedere i passaggi.

Ecco una visualizzazione di un set di dati power-law prima e dopo una trasformazione di log:

Un grafico a barre con la maggior parte dei dati nella parte inferiore
Figura 2: distribuzione della legge elettrica.
. Grafico che mostra una distribuzione normale (gaussiana)
Figura 3: una trasformazione logaritmica della Figura 2.

Prima della scalabilità dei log (Figura 2), l'esempio in rosso appare più simile al giallo. Dopo il ridimensionamento dei log (Figura 3), il rosso appare più simile al blu.

Quantili

Il raggruppamento dei dati in quantili funziona bene quando il set di dati non è conforme in una distribuzione nota. Prendi ad esempio questo set di dati:

Un grafico che mostra una distribuzione dei dati prima di qualsiasi pre-elaborazione
Figura 4: una distribuzione non categorizzabile prima di qualsiasi pre-elaborazione.

Intuitivamente, due esempi sono più simili se solo alcuni esempi rientrano tra a prescindere dai loro valori, e sono più dissimili se molti esempi che rientrano tra loro. La visualizzazione riportata sopra rende difficile vedere il totale numero di esempi che rientrano tra il rosso e il giallo o tra il rosso e il blu.

Questa comprensione della somiglianza può essere evidenziata dividendo il set di dati in quantili, o intervalli, ciascuno dei quali contiene lo stesso numero di esempi, e assegnando l'indice dei quantili a ciascun esempio. Consulta Bucketing dei quantili per rivedere i passaggi.

Ecco la distribuzione precedente divisa in quantili, per cui il rosso è un quantile dal giallo e tre quantili dal blu:

Grafico che mostra i dati dopo la conversione
  in quantili. La linea rappresenta 20 intervalli.]
Figura 5: la distribuzione nella Figura 4 dopo la conversione in 20 quantili.

Puoi scegliere qualsiasi numero \(n\) di quantili. Tuttavia, per i quantili rappresentare in modo significativo i dati sottostanti, il set di dati deve contenere almeno \(10n\) esempi. Se non hai dati sufficienti, esegui la normalizzazione.

Verifica le tue conoscenze

Per le seguenti domande, supponiamo di avere dati sufficienti per creare i quantili.

Domanda uno

Un grafico che mostra tre distribuzioni di dati
Come dovresti elaborare la distribuzione dei dati mostrata nella precedente grafico?
Crea i quantili.
risposta esatta. Poiché la distribuzione non corrisponde distribuzione standard dei dati, per impostazione predefinita creando i quantili.
Normalizza.
Di solito, i dati vengono normalizzati se:
  • La distribuzione dei dati è gaussiana.
  • Hai qualche informazione in più su cosa rappresentano i dati nel mondo reale che suggerisce che i dati non devono essere trasformati in modo non lineare.
Nessuno dei due casi si applica in questo caso. La distribuzione dei dati non è gaussiana perché non è simmetrica. E non sai a cosa corrispondono questi valori rappresentano nel mondo reale.
Trasformazione dei log.
Questa non è una distribuzione perfetta della legge energetica, quindi non usare un log e trasformerai automaticamente.

Domanda due

Un grafico che mostra tre distribuzioni di dati
Come elaboreresti questa distribuzione dei dati?
Normalizza.
risposta esatta. Questa è una distribuzione gaussiana.
Crea i quantili.
Sbagliato. Poiché questa è una distribuzione gaussiana, è la normalizzazione.
Trasformazione dei log.
Sbagliato. Applica una trasformazione di log solo alle distribuzioni della legge elettrica.

Dati mancanti

Se il tuo set di dati ha esempi con valori mancanti per una determinata caratteristica, ma che si verificano di rado, puoi rimuoverli. Se questi esempi si verificano di frequente, puoi rimuoverla completamente oppure puoi prevedere i valori mancanti da altri esempi utilizzando una macchina modello di machine learning. Ad esempio, puoi imputare dati numerici mancanti utilizzando un di regressione lineare addestrato sui dati delle caratteristiche esistenti.