Dati numerici: primi passaggi

Prima di creare vettori di caratteristiche, consigliamo di studiare i dati numerici in in due modi:

  • Visualizza i dati in diagrammi o grafici.
  • Visualizzare le statistiche sui dati.

Visualizzare i dati

I grafici possono aiutarti a trovare anomalie o pattern nascosti nei dati. Pertanto, prima di addentrarti troppo nell'analisi, esamina il tuo sotto forma di grafici a dispersione o istogrammi. Visualizza grafici non solo all'inizio della pipeline di dati, ma anche in tutti i dati e piccole trasformazioni. Le visualizzazioni ti aiutano a verificare continuamente le tue ipotesi.

Consigliamo di lavorare con Pandas per la visualizzazione:

Tieni presente che alcuni strumenti di visualizzazione sono ottimizzati per determinati formati di dati. Uno strumento di visualizzazione che ti aiuta a valutare i buffer di protocollo può o meno essere in grado di aiutarti a valutare i dati CSV.

Valutare in modo statistico i dati

Oltre all'analisi visiva, consigliamo anche di valutare potenziali funzionalità e etichetta matematicamente, raccogliendo statistiche di base come:

  • media e mediana
  • deviazione standard
  • i valori nelle divisioni del quartile: 0°, 25°, 50°, 75° e 100° percentili. Lo 0° percentile è il valore minimo di questa colonna; il Il 100° percentile è il valore massimo di questa colonna. (il percentile 50% è la mediana).

Individuare i valori anomali

Un outlier è un valore distanza dalla maggior parte degli altri valori in una caratteristica o etichetta. I valori anomali spesso causano problemi nell'addestramento del modello, quindi è importante individuare gli outlier.

Quando il delta tra lo 0° e il 25° percentile è significativamente differente dal delta tra il 75° e il 100° percentile, l'insieme di dati probabilmente contiene outlier.

I valori anomali possono rientrare in una qualsiasi delle seguenti categorie:

  • L'outlier è dovuto a un errore. Ad esempio, uno sperimentatore potrebbe aver inserito per errore uno zero aggiuntivo, o forse uno strumento che ha raccolto i dati non ha funzionato correttamente. In genere eliminerai gli esempi contenenti errori anomali.
  • L'outlier è un punto dati legittimo, non un errore. In questo caso, il modello addestrato in definitiva bisogno di dedurre buone previsioni su questi outlier?
    • In caso affermativo, mantieni questi valori anomali nel set di addestramento. Dopotutto, i valori anomali in alcune caratteristiche a volte rispecchia i valori anomali nell'etichetta, quindi outlier potrebbero effettivamente aiutare il modello a fare previsioni migliori. Fai attenzione: gli outlier esagerati possono comunque danneggiare il tuo modello.
    • In caso contrario, elimina i valori anomali o applica un feature engineering più invasivo. come il clipping.