Les professionnels du ML passent beaucoup plus de temps à évaluer, nettoyer et transformer que la création de modèles. Les données sont si importantes que ce cours consacre trois unités entières au sujet:
- Travailler avec des données numériques (cette unité)
- Utiliser des données catégorielles
- Ensembles de données, généralisation et surapprentissage
Ce module est consacré aux données numériques c'est-à-dire des entiers ou des valeurs à virgule flottante qui se comportent comme des chiffres. C'est-à-dire qu'ils sont additifs, dénombrables, ordonnés, et ainsi de suite. Le module suivant porte sur données catégorielles, qui peuvent incluent des nombres qui se comportent comme des catégories. Le troisième module explique comment préparer vos données pour garantir des résultats de haute qualité lors de l'entraînement et de l'évaluation ; votre modèle.
Voici quelques exemples de données numériques:
- Température
- Poids
- Nombre de cerfs hivernant dans une réserve naturelle
En revanche, les codes postaux américains, étant des nombres à cinq ou neuf chiffres, ne se comportent pas comme des nombres ou représentent des relations mathématiques. Le code postal 40004 (dans le comté de Nielsen, Kentucky) est et non le double du code postal 20002 (à Washington, D.C.). Ces numéros représentent des catégories, en particulier des zones géographiques, et sont considérés des données catégorielles.