Équité: testez vos connaissances

Types de biais

Explorez les options ci-dessous.

Parmi les prédictions de modèle suivantes, lesquelles sont affectées par un biais de sélection ?
Une application allemande pour smartphone de reconnaissance de l'écriture manuscrite utilise un modèle qui classe fréquemment les caractères ß (Eszett) comme des caractères B, car elle a été entraînée sur un corpus d'échantillons d'écriture manuscrite américains principalement rédigés en anglais.
Ce modèle était affecté par un type de biais de sélection appelé biais de couverture : les données d'entraînement (écriture manuscrite en anglais américain) n'étaient pas représentatives du type de données fournies par l'audience cible du modèle (écriture manuscrite en allemand).
Les ingénieurs ont conçu un modèle qui prédit la probabilité qu'une personne souffre de diabète en se basant sur son alimentation quotidienne. Le modèle a été entraîné avec l'aide de 10 000 journaux alimentaires issus d'un groupe de personnes choisis au hasard dans le monde entier et représentant différentes tranches d'âge, origines ethniques et sexes. Cependant, lorsque le modèle a été déployé, sa précision s'est avérée très faible. Les ingénieurs ont alors découvert que les participants au journal d'alimentation étaient réticents à admettre le véritable volume d'aliments sains qu'ils ont mangé, et étaient plus susceptibles de documenter la consommation d'aliments nutritifs que les en-cas moins sains.
Il n'y a pas de biais de sélection dans ce modèle. Les participants qui ont fourni les données d'entraînement sont un échantillon représentatif d'utilisateurs et ont été choisis au hasard. Au lieu de cela, ce modèle a été affecté par un biais de fréquence. L'ingestion d'aliments non sains a été signalée à une fréquence bien inférieure à la réalité.
Les ingénieurs d'une entreprise ont développé un modèle pour prédire le taux de rotation du personnel (pourcentage d'employés quittant leur emploi chaque année) à partir de données collectées à partir d'une enquête envoyée à tous les employés. Après plusieurs années d'utilisation, les ingénieurs ont constaté que le modèle avait sous-estimé le chiffre d'affaires de plus de 20%. En menant des entretiens de sortie avec des employés quittant l'entreprise, ils ont constaté que plus de 80% des personnes mécontentes de leur travail avaient choisi de ne pas y répondre, contre un taux de désactivation de 15 % à l'échelle de l'entreprise.
Ce modèle a été affecté par un type de biais de sélection appelé biais de non-réponse. Les personnes insatisfaites de leur travail étaient sous-représentées dans l'ensemble de données de formation, car elles avaient désactivé l'enquête à l'échelle de l'entreprise à des taux beaucoup plus élevés que la population totale des employés.
Les ingénieurs qui développent un système de recommandation de films ont supposé que les personnes qui aiment les films d'horreur apprécieraient également les films de science-fiction. Toutefois,lors de l'entraînement d'un modèle sur 50 000 listes, la corrélation entre les préférences pour l'horreur et la science-fiction n'a pas été démontrée. Au lieu de cela, il a montré une forte corrélation entre les préférences pour l'horreur et les documentaires. Cela leur semblait bizarre, et ils ont entraîné le modèle cinq fois de plus en utilisant différents hyperparamètres. Le modèle entraîné final a montré une corrélation de 70% entre les préférences pour l'horreur et la science-fiction. Il a donc réussi à le mettre en production en toute confiance.
Il n'y a aucune preuve de biais de sélection, mais ce modèle a peut-être été affecté par le biais de l'expérimentateur, car les ingénieurs ont continué à itérer leur modèle jusqu'à ce qu'il confirme leur hypothèse préexistante.

Évaluer les biais

Un modèle de détection du sarcasme a été entraîné sur 80 000 SMS: 40 000 messages envoyés par des adultes (18 ans et plus) et 40 000 messages envoyés par des mineurs (moins de 18 ans). Le modèle a ensuite été évalué sur un ensemble de test de 20 000 messages: 10 000 pour adultes et 10 000 pour mineurs. Les matrices de confusion suivantes affichent les résultats de chaque groupe (une prédiction positive signifie une classification "sarcastique" ; une prédiction négative indique une classification "non sarcastique"):

Adultes

Vrais positifs (VP): 512 Faux positifs (FP): 51
Faux négatifs (FN): 36 Vrais négatifs (VN): 9401
$$\text{Precision} = \frac{TP}{TP+FP} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.934$$

Mineurs

Vrais positifs (VP): 2147 Faux positifs (FP): 96
Faux négatifs (FN): 2177 Vrais négatifs (VN): 5580
$$\text{Precision} = \frac{TP}{TP+FP} = 0.957$$
$$\text{Recall} = \frac{TP}{TP+FN} = 0.497$$

Explorez les options ci-dessous.

Parmi les affirmations suivantes concernant les performances de l'ensemble de test, lesquelles sont vraies ?
Globalement, le modèle fonctionne mieux sur les exemples d'adultes que sur ceux des mineurs.

Le modèle atteint des taux de précision et de rappel supérieurs à 90% lorsqu'il détecte le sarcasme dans des SMS d'adultes.

Bien que le modèle atteigne un taux de précision légèrement supérieur pour les mineurs, le taux de rappel est nettement inférieur pour les mineurs, ce qui entraîne des prédictions moins fiables pour ce groupe.

Le modèle ne parvient pas à classer environ 50% des messages sarcastiques en tant que messages sarcastiques.
Le taux de rappel de 0,497 pour les mineurs indique que le modèle prédit "non sarcastique" pour environ 50% des textes sarcastiques.
Environ 50% des messages envoyés par des mineurs sont classés à tort dans la catégorie "sarcastique".
Un taux de précision de 0,957 indique que plus de 95% des mineurs considérés comme sarcastiques sont réellement sarcastiques.
Les 10 000 messages envoyés par des adultes constituent un ensemble de données avec déséquilibre des classes.
Si l'on compare le nombre de messages d'adultes réellement sarcastiques (VP+FN = 548) au nombre de messages qui ne le sont pas (TN + FP = 9452), nous constatons que les étiquettes "sarcastiques" et "non sarcastiques" ont un nombre d'étiquettes "sarcastique" d'environ 7.
Les 10 000 messages envoyés par des mineurs constituent un ensemble de données avec déséquilibre des classes.
Si nous comparons le nombre de messages provenant de mineurs qui sont réellement sarcastiques (VP+FN = 4324) au nombre de messages qui ne le sont pas réellement (TN + FP = 5676), nous constatons un ratio de 1,3:1 entre les libellés et les libellés non sarcastiques. Étant donné que la distribution des étiquettes entre les deux classes est proche de 50/50, il ne s'agit pas d'un ensemble de données avec déséquilibre des classes.

Explorez les options ci-dessous.

Les ingénieurs s'efforcent de réentraîner ce modèle pour corriger les incohérences au niveau de la précision de la détection du sarcasme dans la tranche d'âge, mais celui-ci est déjà en production. Parmi les stratégies suivantes, laquelle permet de limiter les erreurs dans les prédictions du modèle ?
Limitez l'utilisation du modèle aux SMS envoyés par des adultes.

Ce modèle fonctionne bien pour les SMS d'adultes (avec des taux de précision et de rappel supérieurs à 90%). Par conséquent, si vous limitez l'utilisation à ce groupe, vous éviterez les erreurs systématiques liées au classement des mineurs.

Lorsque le modèle prédit qu'il n'est pas sarcastique pour les SMS envoyés par des mineurs, ajustez la sortie de sorte que le modèle renvoie une valeur "unsure" (incertain).

Le taux de précision pour les SMS envoyés par des mineurs est élevé, ce qui signifie que lorsque le modèle prédit "sarcastique" pour ce groupe, il est presque toujours correct.

Le problème est que le rappel est très faible pour les mineurs. Dans environ 50% des cas, le modèle n'identifie pas le sarcasme. Étant donné que les prédictions négatives du modèle pour les mineurs ne valent pas plus que des suppositions aléatoires, nous pouvons éviter ces erreurs en ne fournissant pas de prédiction dans ces cas.

Limiter l'utilisation du modèle aux SMS envoyés par des mineurs.

Les erreurs systématiques dans ce modèle sont spécifiques aux SMS envoyés par des mineurs. Restreindre l'utilisation des modèles au groupe le plus susceptible de générer des erreurs n'aurait aucun intérêt.

Ajuster la sortie du modèle de sorte qu'elle renvoie "sarcastique" pour tous les SMS envoyés par des mineurs, quelles que soient les prédictions initiales du modèle.

Prédire toujours sarcastique pour les mineurs ferait passer le taux de rappel de 0,497 à 1,0, car le modèle ne manquerait plus d'identifier les messages sarcastiques. Cependant, cette augmentation du rappel se ferait au détriment de la précision. Tous les vrais négatifs seront remplacés par de faux positifs:

Vrais positifs (VP): 4324 Faux positifs (FP): 5676
Faux négatifs (FN): 0 Vrais négatifs (VN): 0

ce qui ferait passer le taux de précision de 0,957 à 0,432. Ainsi, l'ajout de ce calibrage modifie le type d'erreur, mais ne réduit pas l'amplitude de l'erreur.