Équité: identifier les biais

Lorsque vous préparez vos données pour l'entraînement et l'évaluation du modèle, il est important de garder à l'esprit les questions d'équité et de rechercher des sources potentielles de biais afin de pouvoir atténuer de manière proactive leurs effets avant de mettre votre modèle en production.

Où les biais pourraient-ils se cacher ? Voici quelques signaux d'alerte à surveiller dans votre ensemble de données.

Valeurs de caractéristiques manquantes

Si votre ensemble de données comporte une ou plusieurs caractéristiques dont les valeurs sont manquantes pour un grand nombre d'exemples, cela peut indiquer que certaines caractéristiques clés de votre ensemble de données sont sous-représentées.

Exercice : Vérifiez votre compréhension

Vous entraînez un modèle pour prédire l'adoptabilité des chiens de refuge en fonction de diverses caractéristiques, y compris la race, l'âge, le poids, le tempérament et la quantité de poils perdus chaque jour. Votre objectif est de vous assurer que le modèle fonctionne aussi bien pour tous les types de chiens, quelles que soient leurs caractéristiques physiques ou comportementales.

Vous constatez que 1 500 exemples sur les 5 000 de l'ensemble d'entraînement ne comportent pas de valeurs de tempérament. Parmi les propositions suivantes, lesquelles sont des sources potentielles de biais que vous devez examiner ?

Il est plus probable que les données sur le caractère soient manquantes pour certaines races de chiens.
Si la disponibilité des données sur le tempérament est corrélée à la race de chien, cela peut entraîner des prédictions d'adoptabilité moins précises pour certaines races de chiens.
Les données sur le tempérament sont plus susceptibles d'être manquantes pour les chiens de moins de 12 mois
Si la disponibilité des données sur le tempérament est corrélée à l'âge, cela peut entraîner des prédictions d'adoptabilité moins précises pour les chiots que pour les chiens adultes.
Les données sur le tempérament sont manquantes pour tous les chiens sauvés dans les grandes villes.
À première vue, il ne semble pas s'agir d'une source potentielle de biais, car les données manquantes affecteraient tous les chiens des grandes villes de manière égale, indépendamment de leur race, de leur âge, de leur poids, etc. Toutefois, nous devons toujours tenir compte du fait que l'emplacement d'un chien peut effectivement servir de proxy pour ces caractéristiques physiques. Par exemple, si les chiens des grandes villes sont beaucoup plus susceptibles d'être de petite taille que ceux des zones plus rurales, cela peut entraîner des prévisions d'adoptabilité moins précises pour les chiens de petite taille ou certaines races de chiens de petite taille.
Il manque des données de tempérament de manière aléatoire dans l'ensemble de données.
Si les données sur le tempérament sont vraiment manquantes de manière aléatoire, cela ne constitue pas une source potentielle de biais. Toutefois, il est possible que les données de tempérament semblent manquer de manière aléatoire, mais une enquête plus approfondie pourrait révéler une explication à cette divergence. Il est donc important d'effectuer un examen approfondi pour exclure d'autres possibilités, plutôt que de supposer que les lacunes de données sont aléatoires.

Valeurs de caractéristiques inattendues

Lorsque vous explorez des données, vous devez également rechercher des exemples qui contiennent des valeurs de caractéristique qui se démarquent comme particulièrement inhabituelles ou inhabituelles. Ces valeurs de fonctionnalité inattendues peuvent indiquer des problèmes survenus lors de la collecte des données ou d'autres inexactitudes pouvant entraîner des biais.

Exercice : Vérifiez votre compréhension

Examinez l'ensemble hypothétique suivant d'exemples pour l'entraînement d'un modèle d'adoption pour chien de secours.

race âge (années) poids (livres) caractère shedding_level
caniche toy 2 12 excitable bas
Golden retriever 7 65 calme high
Labrador retriever 35 73 calme high
bouledogue français 0,5 11 calme moyen
race mélangée inconnue 4 45 excitable high
basset 9 48 calme moyen
Pouvez-vous identifier des problèmes avec les données de l'élément géographique ?
Cliquez ici pour voir la réponse

Décalage de données

Toute forme d'asymétrie dans vos données, c'est-à-dire certains groupes ou caractéristiques sous-représentés ou surreprésentés par rapport à leur prévalence réelle, peut introduire un biais dans votre modèle.

Lors de l'audit des performances d'un modèle, il est important non seulement d'examiner les résultats agrégés, mais aussi de les ventiler par sous-groupe. Par exemple, dans le cas de notre modèle d'adoptabilité des chiens de refuge, pour garantir l'impartialité, il ne suffit pas de se concentrer sur la justesse globale. Nous devons également auditer les performances par sous-groupe pour nous assurer que le modèle fonctionne de manière égale pour chaque race de chien, chaque groupe d'âge et chaque groupe de taille.

Plus loin dans ce module, dans la section Évaluer les biais, nous examinerons de plus près les différentes méthodes d'évaluation des modèles par sous-groupe.