Prima di creare vettori di funzionalità, ti consigliamo di studiare i dati numerici in due modi:
- Visualizza i dati in grafici o grafici.
- Visualizza le statistiche relative ai tuoi dati.
Visualizzare i dati
I grafici possono aiutarti a trovare anomalie o pattern nascosti nei dati. Pertanto, prima di procedere troppo con l'analisi, esamina i dati in modo grafico, sotto forma di grafici a dispersione o istogrammi. Visualizza i grafici non solo all'inizio della pipeline di dati, ma anche durante le trasformazioni dei dati. Le visualizzazioni ti aiutano a verificare continuamente le tue ipotesi.
Per la visualizzazione, ti consigliamo di utilizzare pandas:
Tieni presente che alcuni strumenti di visualizzazione sono ottimizzati per determinati formati di dati. Uno strumento di visualizzazione che ti aiuta a valutare i buffer del protocollo potrebbe o meno essere in grado di aiutarti a valutare i dati CSV.
Valutare i dati in modo statistico
Oltre all'analisi visiva, ti consigliamo anche di valutare matematicamente le potenziali funzionalità e le etichette, raccogliendo statistiche di base come:
- media e mediana
- deviazione standard
- i valori alle suddivisioni dei quartili: i percentile 0, 25, 50, 75 e 100. Il percentile 0 è il valore minimo di questa colonna, mentre il percentile 100 è il valore massimo di questa colonna. Il 50° percentile è la mediana.
Trovare gli outlier
Un outlier è un valore distante dalla maggior parte degli altri valori in un elemento o in un'etichetta. Gli outlier spesso causano problemi in fase di addestramento del modello, quindi è importante trovarli.
Quando il delta tra il percentile 0 e il percentile 25 è molto diverso dal delta tra il percentile 75 e il percentile 100, il set di dati probabilmente contiene valori anomali.
Gli outlier possono rientrare in una delle seguenti categorie:
- L'outlier è dovuto a un errore. Ad esempio, un sperimentatore potrebbe aver inserito per errore uno zero in più o un dispositivo che ha raccolto i dati potrebbe non aver funzionato correttamente. In genere, eliminerai gli esempi contenenti valori anomali dovuti a errori.
- L'outlier è un punto dati legittimo, non un errore.
In questo caso, il tuo modello addestrato dovrà ricavare buone previsioni su questi valori anomali?
- Se sì, mantieni questi valori anomali nel set di addestramento. Dopotutto, gli outlier in determinate funzionalità a volte rispecchiano gli outlier nell'etichetta, pertanto gli outlier potrebbero effettivamente aiutare il tuo modello a fare previsioni migliori. Fai attenzione, gli outlier estremi possono comunque danneggiare il tuo modello.
- In caso contrario, elimina gli outlier o applica tecniche di feature engineering più invasive, come il taglio.