L'integrità di un modello di machine learning (ML) è determinata dai dati. Alimenta i tuoi modello di dati sani e avrà successo; e fornire al modello la posta indesiderata le previsioni non avranno valore.
Best practice per lavorare con i dati numerici:
- Ricorda che il modello ML interagisce con i dati in vettore di caratteristiche, non i dati set di dati.
- Normalizza la maggior parte delle caratteristiche numeriche.
- Se la tua prima strategia di normalizzazione non ha esito positivo, prendi in considerazione una per normalizzare i dati.
- Binning, noto anche come il bucket, a volte è meglio della normalizzazione.
- Pensa a come dovrebbero presentarsi i tuoi dati, scrivi una verifica
per convalidare queste aspettative. Ad esempio:
- Il valore assoluto della latitudine non deve mai superare 90. Puoi scrivere un per verificare se nei dati è presente un valore di latitudine superiore a 90.
- Se i tuoi dati sono limitati allo stato della Florida, puoi scrivere test per verificare che le latitudini siano comprese tra 24 e 31 inclusi.
- Visualizza i dati con grafici a dispersione e istogrammi. Cerca anomalie.
- Raccogliere statistiche non solo sull'intero set di dati, ma anche su dati più piccoli sottoinsiemi del set di dati. Questo perché a volte le statistiche aggregate oscurare i problemi nelle sezioni più piccole di un set di dati.
- Documenta tutte le trasformazioni dei tuoi dati.
I dati sono la tua risorsa più preziosa, quindi trattali con cura.
Ulteriori informazioni
- La guida Rules of Machine Learning contiene un'utile . Feature Engineering.
Passaggi successivi
Congratulazioni per aver completato il modulo.
Ti invitiamo a esplorare i vari moduli MLCC secondo i tuoi interessi e i tuoi tempi. Se vuoi seguire un ordine consigliato: ti consigliamo di passare al modulo seguente: Rappresentazione dei dati categorici: