Transformer vos données: testez vos connaissances

Pour les questions suivantes, cliquez sur la flèche souhaitée pour vérifier votre réponse:

Vous prétraitez les données pour un modèle de régression. Quelles sont les transformations obligatoires ? Cochez toutes les réponses qui s'appliquent.
Convertir toutes les caractéristiques non numériques en caractéristiques numériques.
Bonne réponse. Cette transformation est obligatoire. Vous devez convertir les chaînes en une représentation numérique, car vous ne pouvez pas multiplier la matrice sur une chaîne.
Normaliser les données numériques
Normaliser les données numériques pourrait aider, mais il s'agit d'une transformation facultative de la qualité.

 

Prenons l'exemple du graphique ci-dessous. Quelle technique de transformation de données serait la plus efficace, et pourquoi ? Supposons que votre objectif soit de trouver une relation linéaire entre les dimensions roomPerPerson et les prix de l'immobilier.
Score Z
Le score Z est un bon choix si les anomalies ne sont pas extrêmes. Toutefois, les anomalies sont extrêmes ici.
Clip
Le rognage est un bon choix, car l'ensemble de données contient des anomalies extrêmes. Vous devez corriger les anomalies extrêmes avant d'appliquer d'autres normalisations.
Scaling du journal
Le scaling des journaux est un bon choix si vos données confirment la distribution de la loi de puissance. Cependant, ces données sont conformes à une distribution normale plutôt qu'à une distribution de la puissance électrique.
Binning (binning) avec des limites de quantile
Le binning des quantiles peut être une bonne approche pour les données asymétriques, mais dans le cas présent, ce décalage est dû en partie à quelques anomalies extrêmes. Vous voulez également que le modèle apprenne une relation linéaire. Par conséquent, vous devez conserver les valeurs "piècesPerPerson" au lieu de les transformer en catégories, ce que fait le binning. Essayez plutôt une technique de normalisation.

Graphique illustrant la fréquence relative de différents types RoomPerPerson, selon le nombre de pièces d'une résidence divisé par le nombre de personnes dans celle-ci.  La plupart des données sont réparties entre 0 et 5 avec quelques points allant de 5 à 55.

 

Prenons l'exemple du graphique ci-dessous. Quelle technique de transformation de données serait la plus efficace, et pourquoi ?
Score Z
Le score Z est un bon choix si les anomalies ne sont pas si extrêmes que vous avez besoin d'un rognage. Ce n'est pas le cas ici. La façon dont les données sont asymétriques doit être un indicateur.
Clip
Le rognage est un bon choix en cas d'anomalies. Toutefois, ce graphique montre une distribution de la puissance électrique, et il existe une autre technique de normalisation qui serait plus appropriée pour y remédier.
Scaling du journal
Le scaling des journaux est un choix judicieux, car les données sont conformes à la distribution de la loi sur l'alimentation.
Binning (binning) avec des limites de quantile
Le binning des quantiles peut être une bonne approche pour les données asymétriques. Cependant, vous cherchez le modèle pour apprendre une relation linéaire. Par conséquent, vous devez conserver vos données au format numérique et éviter de les placer dans des buckets. Essayez plutôt une technique de normalisation.

Graphique à barres dont les barres sont fortement concentrées au bas de l'écran. La première barre a une magnitude de 1 200, la deuxième a une magnitude de 460, la troisième une magnitude de 300. À la 15e barre, l'amplitude est d'environ 30. Une queue très longue se poursuit pour 90 barres supplémentaires. L'amplitude de la queue longue ne dépasse jamais 10.

 

Prenons l'exemple du graphique ci-dessous. Un modèle linéaire fera-t-il une bonne prédiction de la relation entre les ratios de compression et les mpg de la ville ? Si ce n'est pas le cas, comment pourriez-vous transformer les données pour mieux entraîner le modèle ?
Oui, le modèle trouvera probablement une relation linéaire et effectuera des prédictions assez précises.
Bien que le modèle trouve une relation linéaire, il ne fera pas de prédictions très précises. Vous pouvez essayer d'entraîner cet ensemble de données en suivant l'exercice de modélisation des données afin de mieux comprendre pourquoi.
Non. Le modèle serait probablement plus précis après le scaling.
Vous pouvez appliquer un scaling linéaire, mais la pente de la relation entre le ratio de compression et le fichier mpg de la ville ressemblera. Par contre, nous vous conseillons d'afficher deux pentes distinctes : une pour le groupe de points du ratio de compression inférieur et l'autre pour le point le plus élevé.
Non. Il semble qu'il y ait deux comportements différents. Définir un seuil intermédiaire et utiliser une caractéristique divisée en buckets vous aident à mieux comprendre ce qui se passe dans ces deux domaines.
Bonne réponse. Il est important de comprendre pourquoi et comment vous définissez les limites. Dans l'exercice sur la modélisation des données, vous découvrirez précisément comment cette approche peut vous aider à créer un meilleur modèle.

Un graphique à nuage de points montrant le fichier mpg de la route en fonction du ratio de compression Deux ensembles de données distincts, l'un étant beaucoup plus volumineux que l'autre, apparaissent aux extrémités opposées de l'axe de compression. L'ensemble plus important couvre la plage de ratios de compression 7-12 ; l'ensemble plus petit couvre la plage de ratios de compression 21-23. Le fichier mpg de la route est généralement un peu plus bas dans le groupe le plus gros que dans le segment plus petit.

 

Une équipe d'applications similaires vous indique la progression de son projet de ML. Ils ont calculé un vocabulaire et entraîné un modèle hors connexion. Elle veut toutefois éviter les problèmes d'obsolescence. Elle est donc sur le point d'entraîner un autre modèle en ligne. Que peut-il se passer ensuite ?
Le modèle reste à jour à mesure que de nouvelles données arrivent. L'autre équipe devra surveiller en permanence les données d'entrée.
Bien que l'objectif de l'entraînement dynamique soit d'éviter l'obsolescence du modèle, l'utilisation d'un vocabulaire avec un modèle entraîné hors connexion entraînerait des problèmes.
Ils peuvent constater que les index qu'ils utilisent ne correspondent pas au vocabulaire.
Bonne réponse. Informez vos collègues des risques liés au décalage entraînement/inférence, puis recommandez-leur de suivre le cours Google sur la préparation des données et l'extraction de caractéristiques pour le ML afin d'en savoir plus.