Dati numerici: conclusione

L'integrità di un modello di machine learning (ML) è determinata dai dati. Alimenta i tuoi modello di dati sani e avrà successo; e fornire al modello la posta indesiderata le previsioni non avranno valore.

Best practice per lavorare con i dati numerici:

Ricorda che il modello ML interagisce con i dati nel vettore di caratteristiche, non con i dati nel set di dati.
Normalizza la maggior parte delle caratteristiche numeriche.
Se la tua prima strategia di normalizzazione non ha esito positivo, prendi in considerazione una per normalizzare i dati.
La aggregazione, nota anche come bucketing, a volte è migliore della normalizzazione.
Tenendo conto di come dovrebbero essere i tuoi dati, scrivi test di verifica per convalidare queste aspettative. Ad esempio:
- Il valore assoluto della latitudine non deve mai superare 90. Puoi scrivere un per verificare se nei dati è presente un valore di latitudine superiore a 90.
- Se i tuoi dati sono limitati allo stato della Florida, puoi scrivere test per verificare che le latitudini rientrino nell'intervallo compreso tra 24 e 31, inclusi.
Visualizza i dati con grafici a dispersione e istogrammi. Cerca le anomalie in uso.
Raccogliere statistiche non solo sull'intero set di dati, ma anche su sottoinsiemi più piccoli del set di dati. Questo perché a volte le statistiche aggregate oscurare i problemi nelle sezioni più piccole di un set di dati.
Documenta tutte le trasformazioni dei dati.

I dati sono la tua risorsa più preziosa, quindi trattali con cura.

Ulteriori informazioni

La guida Rules of Machine Learning contiene un'utile Feature Engineering.

Passaggi successivi

Congratulazioni per aver completato il modulo.

Ti invitiamo a esplorare i vari moduli MLCC in base ai tuoi ritmi e interessi. Se vuoi seguire un ordine consigliato: ti consigliamo di passare al modulo seguente: Rappresentazione dei dati categorici:

Indietro

Testa le tue conoscenze (10 min)

Avanti

Introduzione (5 min)

Dati numerici: conclusione Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Ulteriori informazioni

Passaggi successivi

Dati numerici: conclusione