Équité: identifier les biais

Lorsque vous préparez vos données pour l'entraînement et l'évaluation du modèle, il est important de garder à l’esprit les problèmes d’impartialité et d’effectuer un audit des sources potentielles de biais, afin que vous puissiez d'atténuer les effets de manière proactive avant de publier votre modèle en production.

Où les biais pourraient-ils se cacher ? Voici quelques signaux d'alerte à surveiller dans votre ensemble de données.

Valeurs de caractéristiques manquantes

Si votre ensemble de données comporte une ou plusieurs caractéristiques dont les valeurs sont manquantes pour un grand Il peut s'agir d'un indicateur du fait que certaines caractéristiques de votre ensemble de données sont sous-représentés.

Exercice: tester vos connaissances

Vous entraînez un modèle pour prédire l'adoption des chiens de sauvetage en fonction sur diverses caractéristiques, y compris la race, l'âge, le poids, le tempérament, et la quantité de fourrure mise au rebut chaque jour. Votre objectif est de vous assurer que le modèle fonctionne aussi bien sur tous les types de chiens, quel que soit leur ou des caractéristiques comportementales

Vous découvrez que sur les 5 000 exemples de l'ensemble d'entraînement, 1 500 il manque des valeurs de tempérament. Parmi les propositions suivantes, lesquelles sont des sources potentielles de biais à étudier ?

Il est plus probable que les données de tempérament soient manquantes pour certaines races de chiens.
Si la disponibilité des données sur le tempérament est corrélée à la race des chiens, les prédictions d'adoptabilité peuvent alors être moins précises certaines races de chiens.
Il est plus probable que les données sur le caractère soient manquantes pour les chiens de moins de 12 ans mois
Si la disponibilité des données sur les tempéraments est corrélée à l'âge, alors les prédictions d'adoptabilité peuvent être moins précises chiots par rapport à chiens adultes.
Les données sur le caractère sont manquantes pour tous les chiens secourus dans les grandes villes.
À première vue, il ne semble pas qu'il s'agisse d'une source potentielle de biais, puisque les données manquantes affecteraient tous les chiens de de manière égale, quelle que soit la race, l'âge, le poids, etc. Cependant, nous devons tout de même tenir compte de l'emplacement d'où se trouve un chien peut servir de mandataire à ces ressources physiques caractéristiques. Par exemple, si les chiens des grandes villes beaucoup plus susceptibles d'être plus petits que les chiens des zones rurales ce qui peut entraîner des prédictions moins précises concernant l'adoption pour les chiens de faible poids ou certaines races de petits chiens.
Il manque des données de tempérament de manière aléatoire dans l'ensemble de données.
S'il manque réellement des données de tempérament au hasard, peut être une source de biais. Cependant, il est peut-être tempérament des données peuvent sembler manquantes au hasard, mais un examen plus approfondi peut révéler une explication de l'écart. Il est donc important de de procéder à un examen approfondi afin d'exclure d'autres possibilités, supposent que les écarts de données sont aléatoires.

Valeurs de caractéristiques inattendues

Lorsque vous explorez des données, vous devez également rechercher des exemples qui contiennent des valeurs de caractéristiques qui se démarquent comme particulièrement inhabituelles ou inhabituelles. Ces fonctionnalités inattendues peuvent indiquer des problèmes survenus lors de la collecte de données ou d'autres des inexactitudes qui pourraient introduire un biais.

Exercice: tester vos connaissances

Examiner l'ensemble hypothétique suivant d'exemples pour le dressage d'un chien de sauvetage d'adoption.

race âge (années) poids (en kg) caractère shedding_level
caniche nain 2 12 excitant bas
golden retriever 7 65 calme high
labrador retriever 35 73 calme high
bouledogue français 0,5 11 calme moyen
race mélangée inconnue 4 45 excitant high
basset hound 9 48 calme moyen
Pouvez-vous identifier des problèmes avec les données de caractéristiques ?
Cliquez ici pour voir la réponse

Décalage de données

Toute sorte d'asymétrie dans vos données, où certains groupes ou certaines caractéristiques sous-représentés ou surreprésentés par rapport à leur prévalence dans le monde réel, peuvent d'introduire un biais dans votre modèle.

Lors de l'audit des performances d'un modèle, il est important non seulement d'examiner les résultats agréger, mais pour ventiler les résultats par sous-groupe. Par exemple, dans le cas notre modèle d'adoption des chiens de sauvetage, pour garantir l'impartialité, simplement de regarder la justesse globale. Nous devons également auditer les performances par sous-groupe pour s'assurer que le modèle fonctionne de la même manière pour chaque race, groupe d'âge et groupe de tailles.

Plus loin dans ce module, dans Évaluer les biais, nous examinons plus en détail les différentes méthodes d'évaluation des modèles par sous-groupe.