Dati numerici: conclusione

L'integrità di un modello di machine learning (ML) è determinata dai dati. Alimenta i tuoi modello di dati sani e avrà successo; e fornire al modello la posta indesiderata le previsioni non avranno valore.

Best practice per lavorare con i dati numerici:

  • Ricorda che il modello ML interagisce con i dati in vettore di caratteristiche, non i dati set di dati.
  • Normalizza la maggior parte delle caratteristiche numeriche.
  • Se la tua prima strategia di normalizzazione non ha esito positivo, prendi in considerazione una per normalizzare i dati.
  • Binning, noto anche come il bucket, a volte è meglio della normalizzazione.
  • Pensa a come dovrebbero presentarsi i tuoi dati, scrivi una verifica per convalidare queste aspettative. Ad esempio:
    • Il valore assoluto della latitudine non deve mai superare 90. Puoi scrivere un per verificare se nei dati è presente un valore di latitudine superiore a 90.
    • Se i tuoi dati sono limitati allo stato della Florida, puoi scrivere test per verificare che le latitudini siano comprese tra 24 e 31 inclusi.
  • Visualizza i dati con grafici a dispersione e istogrammi. Cerca anomalie.
  • Raccogliere statistiche non solo sull'intero set di dati, ma anche su dati più piccoli sottoinsiemi del set di dati. Questo perché a volte le statistiche aggregate oscurare i problemi nelle sezioni più piccole di un set di dati.
  • Documenta tutte le trasformazioni dei tuoi dati.

I dati sono la tua risorsa più preziosa, quindi trattali con cura.

Ulteriori informazioni

Passaggi successivi

Congratulazioni per aver completato il modulo.

Ti invitiamo a esplorare i vari moduli MLCC secondo i tuoi interessi e i tuoi tempi. Se vuoi seguire un ordine consigliato: ti consigliamo di passare al modulo seguente: Rappresentazione dei dati categorici: