Les modèles de machine learning ne peuvent être entraînés que sur des valeurs à virgule flottante. Toutefois, de nombreuses caractéristiques de l'ensemble de données ne sont pas naturellement des valeurs à virgule flottante. Par conséquent, une partie importante du machine learning consiste à transformer les caractéristiques non à virgule flottante en représentations à virgule flottante.
Par exemple, supposons que street names
soit une fonctionnalité. La plupart des noms de rue sont des chaînes, comme "Broadway" ou "Vilakazi".
Votre modèle ne peut pas être entraîné sur "Broadway". Vous devez donc convertir "Broadway" en nombre à virgule flottante. Le module sur les données catégorielles explique comment procéder.
De plus, vous devez même transformer la plupart des éléments à virgule flottante. Ce processus de transformation, appelé normalisation, convertit les nombres à virgule flottante en une plage limitée qui améliore l'entraînement du modèle. Le module sur les données numériques explique comment procéder.
Échantillonner des données lorsque vous en avez trop
Certaines entreprises disposent d'une multitude de données. Lorsque l'ensemble de données contient trop d'exemples, vous devez sélectionner un sous-ensemble d'exemples pour l'entraînement. Dans la mesure du possible, sélectionnez le sous-ensemble le plus pertinent pour les prédictions de votre modèle.
Exemples de filtres contenant des informations personnelles
Les bons ensembles de données omettent les exemples contenant des informations permettant d'identifier personnellement l'utilisateur. Ce règlement permet de protéger la confidentialité, mais peut influencer le modèle.
Pour en savoir plus sur ces sujets, consultez le module "Sécurité et confidentialité" plus loin dans le cours.