Dati numerici: conclusione

L'integrità di un modello di machine learning (ML) è determinata dai dati. Alimenta i tuoi modello di dati sani e avrà successo; e fornire al modello la posta indesiderata le previsioni non avranno valore.

Best practice per lavorare con i dati numerici:

  • Ricorda che il modello ML interagisce con i dati nel vettore di caratteristiche, non con i dati nel set di dati.
  • Normalizza la maggior parte delle caratteristiche numeriche.
  • Se la tua prima strategia di normalizzazione non ha esito positivo, prendi in considerazione una per normalizzare i dati.
  • La aggregazione, nota anche come bucketing, a volte è migliore della normalizzazione.
  • Tenendo conto di come dovrebbero essere i tuoi dati, scrivi test di verifica per convalidare queste aspettative. Ad esempio:
    • Il valore assoluto della latitudine non deve mai superare 90. Puoi scrivere un per verificare se nei dati è presente un valore di latitudine superiore a 90.
    • Se i tuoi dati sono limitati allo stato della Florida, puoi scrivere test per verificare che le latitudini rientrino nell'intervallo compreso tra 24 e 31, inclusi.
  • Visualizza i dati con grafici a dispersione e istogrammi. Cerca le anomalie in uso.
  • Raccogliere statistiche non solo sull'intero set di dati, ma anche su sottoinsiemi più piccoli del set di dati. Questo perché a volte le statistiche aggregate oscurare i problemi nelle sezioni più piccole di un set di dati.
  • Documenta tutte le trasformazioni dei dati.

I dati sono la tua risorsa più preziosa, quindi trattali con cura.

Ulteriori informazioni

Passaggi successivi

Congratulazioni per aver completato il modulo.

Ti invitiamo a esplorare i vari moduli MLCC in base ai tuoi ritmi e interessi. Se vuoi seguire un ordine consigliato: ti consigliamo di passare al modulo seguente: Rappresentazione dei dati categorici: