Données numériques: conclusion

L'état d'un modèle de machine learning (ML) est déterminé par ses données. Nourrissez votre modéliser des données saines et qu'il va prospérer ; pour alimenter le modèle, ses fichiers les prédictions n'auront aucun intérêt.

Bonnes pratiques pour travailler avec des données numériques:

  • N'oubliez pas que votre modèle de ML interagit avec les données vecteur de caractéristiques, et non les données ensemble de données.
  • Normaliser le plus caractéristiques numériques.
  • Si votre première stratégie de normalisation échoue, envisagez d'utiliser une autre de normaliser vos données.
  • Le binning, également appelé le binning, est parfois mieux que la normalisation.
  • Pour savoir à quoi vos données devraient ressembler, écrivez la vérification. pour valider ces attentes. Exemple :
    • La valeur absolue de la latitude ne doit jamais dépasser 90. Vous pouvez écrire une pour vérifier si une latitude supérieure à 90 apparaît dans vos données.
    • Si vos données sont limitées à l'État de Floride, vous pouvez écrire des tests pour vérifier que les latitudes sont comprises entre 24 et 31 inclus.
  • Visualisez vos données à l'aide de graphiques à nuage de points et d'histogrammes. Recherchez ou d'anomalies.
  • Recueillir des statistiques non seulement sur l'ensemble de données complet, mais aussi sur des données plus petites des sous-ensembles de l'ensemble de données. Cela est dû au fait que les statistiques agrégées des problèmes obscurs dans des sections plus petites d'un jeu de données.
  • Documentez toutes vos transformations de données.

Les données sont votre ressource la plus précieuse, alors traitez-les avec soin.

Informations supplémentaires

Étape suivante

Félicitations, vous avez terminé ce module !

Nous vous invitons à explorer les différents modules du MLCC à votre propre rythme et dans vos centres d'intérêt. Pour suivre une commande recommandée, nous vous suggérons de passer au module suivant: Représenter des données catégorielles.