L'état d'un modèle de machine learning (ML) est déterminé par ses données. Nourrissez votre modéliser des données saines et qu'il va prospérer ; pour alimenter le modèle, ses fichiers les prédictions n'auront aucun intérêt.
Bonnes pratiques pour travailler avec des données numériques:
- N'oubliez pas que votre modèle de ML interagit avec les données vecteur de caractéristiques, et non les données ensemble de données.
- Normaliser le plus caractéristiques numériques.
- Si votre première stratégie de normalisation échoue, envisagez d'utiliser une autre de normaliser vos données.
- Le binning, également appelé le binning, est parfois mieux que la normalisation.
- Pour savoir à quoi vos données devraient ressembler, écrivez la vérification.
pour valider ces attentes. Exemple :
- La valeur absolue de la latitude ne doit jamais dépasser 90. Vous pouvez écrire une pour vérifier si une latitude supérieure à 90 apparaît dans vos données.
- Si vos données sont limitées à l'État de Floride, vous pouvez écrire des tests pour vérifier que les latitudes sont comprises entre 24 et 31 inclus.
- Visualisez vos données à l'aide de graphiques à nuage de points et d'histogrammes. Recherchez ou d'anomalies.
- Recueillir des statistiques non seulement sur l'ensemble de données complet, mais aussi sur des données plus petites des sous-ensembles de l'ensemble de données. Cela est dû au fait que les statistiques agrégées des problèmes obscurs dans des sections plus petites d'un jeu de données.
- Documentez toutes vos transformations de données.
Les données sont votre ressource la plus précieuse, alors traitez-les avec soin.
Informations supplémentaires
- Le guide des Règles du machine learning contient Ingénierie des caractéristiques.
Étape suivante
Félicitations, vous avez terminé ce module !
Nous vous invitons à explorer les différents modules du MLCC à votre propre rythme et dans vos centres d'intérêt. Pour suivre une commande recommandée, nous vous suggérons de passer au module suivant: Représenter des données catégorielles.