Données numériques: conclusion

L'état d'un modèle de machine learning (ML) est déterminé par ses données. Alimentez votre modèle avec des données saines, et il prospérera. Alimentez-le avec des données de mauvaise qualité, et ses prédictions seront sans valeur.

Bonnes pratiques pour l'utilisation des données numériques:

  • N'oubliez pas que votre modèle de ML interagit avec les données du vecteur de caractéristiques, et non avec les données de l'ensemble de données.
  • Normalisez la plupart des caractéristiques numériques.
  • Si votre première stratégie de normalisation échoue, envisagez une autre méthode de normalisation des données.
  • La binning (également appelée bucketing) est parfois préférable à la normalisation.
  • En tenant compte de l'apparence attendue de vos données, écrivez des tests de validation pour valider ces attentes. Exemple :
    • La valeur absolue de la latitude ne doit jamais dépasser 90. Vous pouvez écrire un test pour vérifier si une valeur de latitude supérieure à 90 degrés apparaît dans vos données.
    • Si vos données sont limitées à l'État de Floride, vous pouvez écrire des tests pour vérifier que les latitudes se situent entre 24 et 31, inclus.
  • Visualisez vos données à l'aide de graphiques à nuage de points et d'histogrammes. Recherchez les anomalies.
  • Collectez des statistiques non seulement sur l'ensemble de données complet, mais aussi sur de plus petits sous-ensembles de l'ensemble de données. En effet, les statistiques agrégées masquent parfois les problèmes dans les sections plus petites d'un ensemble de données.
  • Documentez toutes vos transformations de données.

Les données sont votre ressource la plus précieuse. Traitez-les donc avec soin.

Informations supplémentaires

Étape suivante

Félicitations, vous avez terminé ce module !

Nous vous encourageons à explorer les différents modules MLCC à votre rythme et selon vos centres d'intérêt. Si vous souhaitez suivre l'ordre recommandé, nous vous suggérons de passer au module suivant : Représenter des données catégorielles.