Ensembles de données: transformer les données

Les modèles de machine learning ne peuvent être entraînés qu'avec des valeurs à virgule flottante. Cependant, de nombreuses caractéristiques des ensembles de données ne sont pas naturellement des valeurs à virgule flottante. Par conséquent, un aspect important du machine learning consiste à transformer des caractéristiques non à virgule flottante aux représentations à virgule flottante.

Par exemple, supposons que street names soit une caractéristique. La plupart des noms de rue sont des chaînes (par exemple, "Broadway") ou "Vilakazi". Votre modèle ne peut pas être entraîné sur "Broadway". Vous devez donc transformer "Broadway". en nombre à virgule flottante. Le rapport Données catégorielles ce module explique comment procéder.

Vous devez même transformer la plupart des caractéristiques à virgule flottante. Ce processus de transformation, appelé normalization : convertit les nombres à virgule flottante dans une plage contrainte, ce qui améliore l'entraînement du modèle. Le rapport Données numériques ce module explique comment procéder.

Échantillonner des données lorsque vous en avez trop

Certaines organisations bénéficient d'une abondance de données. Si l'ensemble de données contient trop d'exemples, vous devez sélectionner un sous-ensemble d'exemples pour l'entraînement. Si possible, sélectionnez le sous-ensemble pertinentes pour les prédictions de votre modèle.

Exemples de filtres contenant des informations permettant d'identifier personnellement l'utilisateur

Les bons ensembles de données n'incluent pas d'exemples contenant des informations permettant d'identifier personnellement l'utilisateur (Informations permettant d'identifier personnellement l'utilisateur). Ces règles contribuent à protéger la confidentialité, mais peuvent influencer le modèle.

Pour en savoir plus sur ces sujets, consultez le module "Sécurité et confidentialité" plus loin dans le cours.