Échantillonnage et fractionnement: testez vos connaissances

Pour les questions suivantes, cliquez sur la flèche souhaitée pour vérifier votre réponse:

Imaginez que vous ayez un ensemble de données avec un ratio positif/négatif de 1:1 000. Malheureusement, votre modèle prédit toujours la classe majoritaire. Quelle technique vous aiderait à résoudre ce problème ? Notez que vous souhaitez que le modèle signale une probabilité calibrée.
Sous-échantillonnez les exemples négatifs.
C'est un bon début, mais vous allez modifier le taux de base du modèle afin qu'il ne soit plus calibré.
Sous-échantillonnez les exemples négatifs (la classe majoritaire). Ensuite, appliquez la même pondération à la classe sous-échantillonnée.
C'est un moyen efficace de gérer les données déséquilibrées tout en obtenant la distribution réelle des étiquettes. Notez que l'importance est que le modèle signale une probabilité calibrée ou non. Si vous n'avez pas besoin de le calibrer, vous n'avez pas à vous soucier de modifier le tarif de base.
Quelles techniques perdent les données de la queue d'un ensemble de données ? Cochez toutes les réponses qui s'appliquent.
Filtrage des informations personnelles
En filtrant les informations permettant d'identifier personnellement l'utilisateur dans vos données, vous risquez de supprimer des informations dans la partie, ce qui fausserait la répartition.
Pondération
La pondération par exemple modifie l'importance de différents exemples, mais elle ne perd pas d'informations. En fait, ajouter un poids aux exemples de la queue peut aider votre modèle à apprendre son comportement.
Sous-échantillonnage
La fin des distributions de caractéristiques perd des informations lors du sous-échantillonnage. Toutefois, comme nous sous-échantillonnons généralement la classe majoritaire, cette perte n'est généralement pas un problème majeur.
Normalization
La normalisation fonctionne sur des exemples individuels, elle n'entraîne donc pas de biais d'échantillonnage.
Vous travaillez sur un problème de classification et répartissez les données de manière aléatoire dans des ensembles d'entraînement, d'évaluation et de test. Votre classificateur semble fonctionner parfaitement ! Mais en production, le classificateur est un échec total. Vous découvrirez plus tard que le problème est dû à la répartition aléatoire. Quels types de données sont sensibles à ce problème ?
Données de séries temporelles
La répartition aléatoire divise chaque cluster entre la répartition test/train, ce qui offre un "aperçu" au modèle qui ne sera pas disponible en production.
Données qui ne changent pas beaucoup au fil du temps
Si vos données ne changent pas beaucoup au fil du temps, vous aurez de meilleures chances d'être divisée aléatoirement. Par exemple, vous pourriez vouloir identifier la race du chien sur les photos ou prédire les patients à risque de malformation cardiaque d'après les données biométriques antérieures. Dans les deux cas, les données ne changent généralement pas au fil du temps. Le fractionnement aléatoire ne devrait donc pas poser problème.
Regroupements de données
L'ensemble de test sera toujours trop semblable à l'ensemble d'entraînement, car des clusters de données similaires se trouvent dans les deux ensembles. Le modèle semble avoir une meilleure puissance prédictive qu'il ne le sera.
Données avec utilisation intensive (données arrivant à utilisation intensive par intermittence, par opposition à un flux continu)
Des clusters de données similaires (accès en rafale) s'affichent lors de l'entraînement et des tests. Le modèle effectuera de meilleures prédictions de test qu'avec de nouvelles données.