Dati numerici: primi passaggi

Prima di creare vettori di funzionalità, ti consigliamo di studiare i dati numerici in due modi:

  • Visualizza i dati in grafici o grafici.
  • Visualizza le statistiche relative ai tuoi dati.

Visualizzare i dati

I grafici possono aiutarti a trovare anomalie o pattern nascosti nei dati. Pertanto, prima di procedere troppo con l'analisi, esamina i dati in modo grafico, sotto forma di grafici a dispersione o istogrammi. Visualizza i grafici non solo all'inizio della pipeline di dati, ma anche durante le trasformazioni dei dati. Le visualizzazioni ti aiutano a verificare continuamente le tue ipotesi.

Per la visualizzazione, ti consigliamo di utilizzare pandas:

Tieni presente che alcuni strumenti di visualizzazione sono ottimizzati per determinati formati di dati. Uno strumento di visualizzazione che ti aiuta a valutare i buffer del protocollo potrebbe o meno essere in grado di aiutarti a valutare i dati CSV.

Valutare i dati in modo statistico

Oltre all'analisi visiva, ti consigliamo anche di valutare matematicamente le potenziali funzionalità e le etichette, raccogliendo statistiche di base come:

  • media e mediana
  • deviazione standard
  • i valori alle suddivisioni dei quartili: i percentile 0, 25, 50, 75 e 100. Il percentile 0 è il valore minimo di questa colonna, mentre il percentile 100 è il valore massimo di questa colonna. Il 50° percentile è la mediana.

Trovare gli outlier

Un outlier è un valore distante dalla maggior parte degli altri valori in un elemento o in un'etichetta. Gli outlier spesso causano problemi in fase di addestramento del modello, quindi è importante trovarli.

Quando il delta tra il percentile 0 e il percentile 25 è molto diverso dal delta tra il percentile 75 e il percentile 100, il set di dati probabilmente contiene valori anomali.

Gli outlier possono rientrare in una delle seguenti categorie:

  • L'outlier è dovuto a un errore. Ad esempio, un sperimentatore potrebbe aver inserito per errore uno zero in più o un dispositivo che ha raccolto i dati potrebbe non aver funzionato correttamente. In genere, eliminerai gli esempi contenenti valori anomali dovuti a errori.
  • L'outlier è un punto dati legittimo, non un errore. In questo caso, il tuo modello addestrato dovrà ricavare buone previsioni su questi valori anomali?
    • Se sì, mantieni questi valori anomali nel set di addestramento. Dopotutto, gli outlier in determinate funzionalità a volte rispecchiano gli outlier nell'etichetta, pertanto gli outlier potrebbero effettivamente aiutare il tuo modello a fare previsioni migliori. Fai attenzione, gli outlier estremi possono comunque danneggiare il tuo modello.
    • In caso contrario, elimina gli outlier o applica tecniche di feature engineering più invasive, come il taglio.