Prima di creare vettori di caratteristiche, consigliamo di studiare i dati numerici in in due modi:
- Visualizza i dati in diagrammi o grafici.
- Visualizzare le statistiche sui dati.
Visualizzare i dati
I grafici possono aiutarti a trovare anomalie o pattern nascosti nei dati. Pertanto, prima di addentrarti troppo nell'analisi, esamina il tuo sotto forma di grafici a dispersione o istogrammi. Visualizza grafici non solo all'inizio della pipeline di dati, ma anche in tutti i dati e piccole trasformazioni. Le visualizzazioni ti aiutano a verificare continuamente le tue ipotesi.
Consigliamo di lavorare con Pandas per la visualizzazione:
Tieni presente che alcuni strumenti di visualizzazione sono ottimizzati per determinati formati di dati. Uno strumento di visualizzazione che ti aiuta a valutare i buffer di protocollo può o meno essere in grado di aiutarti a valutare i dati CSV.
Valutare in modo statistico i dati
Oltre all'analisi visiva, consigliamo anche di valutare potenziali funzionalità e etichetta matematicamente, raccogliendo statistiche di base come:
- media e mediana
- deviazione standard
- i valori nelle divisioni del quartile: 0°, 25°, 50°, 75° e 100° percentili. Lo 0° percentile è il valore minimo di questa colonna; il Il 100° percentile è il valore massimo di questa colonna. (il percentile 50% è la mediana).
Individuare i valori anomali
Un outlier è un valore distanza dalla maggior parte degli altri valori in una caratteristica o etichetta. I valori anomali spesso causano problemi nell'addestramento del modello, quindi è importante individuare gli outlier.
Quando il delta tra lo 0° e il 25° percentile è significativamente differente dal delta tra il 75° e il 100° percentile, l'insieme di dati probabilmente contiene outlier.
I valori anomali possono rientrare in una qualsiasi delle seguenti categorie:
- L'outlier è dovuto a un errore. Ad esempio, uno sperimentatore potrebbe aver inserito per errore uno zero aggiuntivo, o forse uno strumento che ha raccolto i dati non ha funzionato correttamente. In genere eliminerai gli esempi contenenti errori anomali.
- L'outlier è un punto dati legittimo, non un errore.
In questo caso, il modello addestrato
in definitiva bisogno di dedurre buone previsioni su questi outlier?
- In caso affermativo, mantieni questi valori anomali nel set di addestramento. Dopotutto, i valori anomali in alcune caratteristiche a volte rispecchia i valori anomali nell'etichetta, quindi outlier potrebbero effettivamente aiutare il modello a fare previsioni migliori. Fai attenzione: gli outlier esagerati possono comunque danneggiare il tuo modello.
- In caso contrario, elimina i valori anomali o applica un feature engineering più invasivo. come il clipping.