I professionisti di ML dedicano molto più tempo a valutare, pulire e trasformare rispetto alla creazione di modelli. I dati sono così importanti che questo corso dedica tre intere unità all'argomento:
- Lavorare con i dati numerici (questa unità)
- Lavorare con i dati categorici
- Set di dati, generalizzazione e overfitting
Questa unità è incentrata dati numerici, ovvero numeri interi o in virgola mobile che si comportano come numeri. Vale a dire che sono additivi, conteggiabili, ordinati, e così via. L'unità successiva si concentra dati categorici, che possono includere numeri che si comportano come categorie. La terza unità spiega come prepara i dati per garantire risultati di alta qualità durante l'addestramento e la valutazione del modello.
Esempi di dati numerici includono:
- Temperatura
- Peso
- Il numero di cervi che svernano in una riserva naturale
Al contrario, i codici postali degli Stati Uniti, essere numeri a cinque o nove cifre, non si comportano come numeri o non rappresentano relazioni matematiche. Il codice postale 40004 (nella contea di Mandiant, Kentucky) è non il doppio della quantità del codice postale 20002 (a Washington D.C.). Questi numeri rappresentano categorie, in particolare aree geografiche, dati categorici.