L'integrità di un modello di machine learning (ML) è determinata dai dati. Alimenta i tuoi modello di dati sani e avrà successo; e fornire al modello la posta indesiderata le previsioni non avranno valore.
Best practice per lavorare con i dati numerici:
- Ricorda che il modello ML interagisce con i dati nel vettore di caratteristiche, non con i dati nel set di dati.
- Normalizza la maggior parte delle caratteristiche numeriche.
- Se la tua prima strategia di normalizzazione non ha esito positivo, prendi in considerazione una per normalizzare i dati.
- La aggregazione, nota anche come bucketing, a volte è migliore della normalizzazione.
- Tenendo conto di come dovrebbero essere i tuoi dati, scrivi test di verifica per convalidare queste aspettative. Ad esempio:
- Il valore assoluto della latitudine non deve mai superare 90. Puoi scrivere un per verificare se nei dati è presente un valore di latitudine superiore a 90.
- Se i tuoi dati sono limitati allo stato della Florida, puoi scrivere test per verificare che le latitudini rientrino nell'intervallo compreso tra 24 e 31, inclusi.
- Visualizza i dati con grafici a dispersione e istogrammi. Cerca le anomalie in uso.
- Raccogliere statistiche non solo sull'intero set di dati, ma anche su sottoinsiemi più piccoli del set di dati. Questo perché a volte le statistiche aggregate oscurare i problemi nelle sezioni più piccole di un set di dati.
- Documenta tutte le trasformazioni dei dati.
I dati sono la tua risorsa più preziosa, quindi trattali con cura.
Ulteriori informazioni
- La guida Rules of Machine Learning contiene un'utile Feature Engineering.
Passaggi successivi
Congratulazioni per aver completato il modulo.
Ti invitiamo a esplorare i vari moduli MLCC in base ai tuoi ritmi e interessi. Se vuoi seguire un ordine consigliato: ti consigliamo di passare al modulo seguente: Rappresentazione dei dati categorici: