L'état d'un modèle de machine learning (ML) est déterminé par ses données. Alimentez votre modèle avec des données saines, et il prospérera. Alimentez-le avec des données de mauvaise qualité, et ses prédictions seront sans valeur.
Bonnes pratiques pour l'utilisation des données numériques:
- N'oubliez pas que votre modèle de ML interagit avec les données du vecteur de caractéristiques, et non avec les données de l'ensemble de données.
- Normalisez la plupart des caractéristiques numériques.
- Si votre première stratégie de normalisation échoue, envisagez une autre méthode de normalisation des données.
- La binning (également appelée bucketing) est parfois préférable à la normalisation.
- En tenant compte de l'apparence attendue de vos données, écrivez des tests de validation pour valider ces attentes. Exemple :
- La valeur absolue de la latitude ne doit jamais dépasser 90. Vous pouvez écrire un test pour vérifier si une valeur de latitude supérieure à 90 degrés apparaît dans vos données.
- Si vos données sont limitées à l'État de Floride, vous pouvez écrire des tests pour vérifier que les latitudes se situent entre 24 et 31, inclus.
- Visualisez vos données à l'aide de graphiques à nuage de points et d'histogrammes. Recherchez les anomalies.
- Collectez des statistiques non seulement sur l'ensemble de données complet, mais aussi sur de plus petits sous-ensembles de l'ensemble de données. En effet, les statistiques agrégées masquent parfois les problèmes dans les sections plus petites d'un ensemble de données.
- Documentez toutes vos transformations de données.
Les données sont votre ressource la plus précieuse. Traitez-les donc avec soin.
Informations supplémentaires
- Le guide Rules of Machine Learning (Règles du machine learning) contient une section utile sur l' ingénierie des caractéristiques.
Étape suivante
Félicitations, vous avez terminé ce module !
Nous vous encourageons à explorer les différents modules MLCC à votre rythme et selon vos centres d'intérêt. Si vous souhaitez suivre l'ordre recommandé, nous vous suggérons de passer au module suivant : Représenter des données catégorielles.