Glossaire du machine learning: Équité

Cette page contient les termes du glossaire sur l'équité. Pour connaître tous les termes du glossaire, cliquez ici.

A

attribut

#fairness

Synonyme de fonctionnalité.

Dans l'équité du machine learning, les attributs font souvent référence aux caractéristiques des individus.

biais d'automatisation

#fairness

Lorsqu'un décideur humain donne la priorité aux recommandations d'un système automatisé de prise de décision par rapport aux informations ne provenant pas d'un processus d'automatisation, même en cas d'erreur du système automatisé.

Pour en savoir plus, consultez la section Équité: types de biais dans le cours d'initiation au machine learning.

B

biais (éthique/équité) (bias (ethics/fairness))

#fairness
#fundamentals

1. Stéréotypes, préjugés ou favoritisme envers certains groupes, choses ou personnes par rapport à d'autres. Ces biais peuvent avoir une incidence sur la collecte et l'interprétation des données, ainsi que sur la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais comprennent les éléments suivants:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de rapport. Les formes de ce type de biais comprennent les éléments suivants:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

Pour en savoir plus, consultez la section Équité: types de biais du cours d'initiation au machine learning.

C

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses propres croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d'une telle manière que cela influence la production d'un résultat confortant leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

L'effet expérimentateur est une forme de biais de confirmation dans lequel un expérimentateur continue d'entraîner des modèles jusqu'à confirmation d'une hypothèse préexistante.

équité contrefactuelle

#fairness

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre qui est identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer un classificateur pour l'impartialité contrefactuelle est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.

Pour en savoir plus, consultez l'une des ressources suivantes:

biais de couverture

#fairness

Voir biais de sélection.

D

parité démographique

#fairness

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si des Lilliputiens et des Brobdingnagiens postulent à l'université Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnagiens, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.

Contrairement aux probabilités égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, les résultats de classification pour certains libellés de vérité terrain spécifiés ne peuvent pas dépendre d'attributs sensibles. Consultez Lutter contre les discriminations grâce à un machine learning plus intelligent pour découvrir une visualisation des compromis à faire lorsque vous optimisez votre campagne pour la parité démographique.

Pour en savoir plus, consultez la section Équité: parité démographique du cours d'initiation au machine learning.

impact différencié

#fairness

Prendre des décisions concernant des personnes qui ont un impact disproportionné sur différents sous-groupes de population Il s'agit généralement de situations où un processus de prise de décision algorithmique nuit ou profite davantage à certains sous-groupes qu'à d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un Lilliputien à un prêt immobilier miniature soit plus susceptible de le classer comme "inéligible" si son adresse postale contient un certain code postal. Si les Lilliputiens big-endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputiens little-endian, cet algorithme peut avoir un impact disparate.

À comparer au traitement différencié, qui se concentre sur les disparités qui résultent lorsque les caractéristiques des sous-groupes sont des entrées explicites dans un processus de prise de décision algorithmique.

traitement différentiel

#fairness

Prise en compte des attributs sensibles des sujets dans un processus de prise de décision algorithmique de sorte que différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt immobilier miniature en fonction des données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise l'affiliation d'un Lilliputien en tant que Big-Endian ou Little-Endian comme entrée, il applique un traitement disparate sur cette dimension.

Contrairement à l'impact différencié, qui se concentre sur les disparités dans les impacts sociétaux des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient des entrées du modèle ou non.

E

égalité des chances

#fairness

Une métrique d'impartialité pour évaluer si un modèle prédit le résultat souhaité aussi bien pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaité pour un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.

L'égalité des chances est liée aux probabilités égales, ce qui nécessite que les deux taux de vrais positifs et les taux de faux positifs soient identiques pour tous les groupes.

Supposons que l'université Glubbdubdrib admette à un programme de mathématiques rigoureux des Lilliputiens et des Brobdingnagiens. Les établissements d'enseignement secondaire des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements d'enseignement secondaire des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée pour l'étiquette préférée "admissible" en fonction de la nationalité (Lilliputien ou Brobdingnagien) si les étudiants qualifiés ont autant de chances d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats Lilliputiens (90% sont éligibles)

  Qualifié Non défini
Admis 45 3
Refusé 45 7
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 7/10 = 70%
Pourcentage total d'étudiants Lilliputiens admis: (45 + 3)/100 = 48%

 

Tableau 2. Candidats Brobdingnagiens (10% sont éligibles):

  Qualifié Non défini
Admis 5 9
Refusé 5 81
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 81/90 = 90%
Pourcentage total d'étudiants Brobdingnagiens admis: (5 + 9)/100 = 14%

Les exemples précédents respectent l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis.

Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas:

  • parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents : 48% des étudiants Lilliputiens sont admis, mais seulement 14% des étudiants Brobdingnagiens.
  • Chances égales: même si les élèves Lilliputiens et Brobdingnagiens qualifiés ont les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagiens non qualifiés ont les mêmes chances d'être refusés n'est pas satisfaite. Les Lilliputiens non qualifiés ont un taux de refus de 70 %, tandis que les Brobdingnagiens non qualifiés ont un taux de refus de 90 %.

Pour en savoir plus, consultez la section Équité: égalité des chances dans le cours d'initiation au machine learning.

cotes égalisées

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit des résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas seulement pour une classe ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être les mêmes pour tous les groupes.

Les chances égalisées sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib admette à la fois des Lilliputiens et des Brobdingnagiens dans un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un programme complet de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les écoles secondaires des Brobdingnagiens n'offrent pas du tout de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. Les chances égales sont respectées si, que le demandeur soit un Lilliputien ou un Brobdingnagien, s'il est qualifié, il a autant de chances d'être admis au programme que s'il ne l'est pas, il a autant de chances d'être refusé.

Supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 3 : Candidats Lilliputiens (90% sont éligibles)

  Qualifié Non défini
Admis 45 2
Refusé 45 8
Total 90 10
Pourcentage d'étudiants qualifiés acceptés: 45/90 = 50%
Pourcentage d'étudiants non qualifiés refusés: 8/10 = 80%
Pourcentage total d'étudiants Lilliputiens acceptés: (45 + 2)/100 = 47%

 

Tableau 4. Candidats Brobdingnagiens (10% sont éligibles):

  Qualifié Non défini
Admis 5 18
Refusé 5 72
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'étudiants non qualifiés refusés: 72/90 = 80%
Pourcentage total d'étudiants brobdingnagiens admis: (5 + 18)/100 = 23%

Les chances sont égales, car les étudiants Lilliputiens et Brobdingnagiens qualifiés ont tous deux 50% de chances d'être admis, et les Lilliputiens et Brobdingnagiens non qualifiés ont 80% de chances d'être refusés.

Les probabilités égalisées sont définies officiellement dans "Equality of Opportunity in Supervised Learning" (Égalité des chances dans l'apprentissage supervisé) comme suit : "Le prédicteur Ŷ satisfait les probabilités égalisées par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, sous réserve de Y."

effet expérimentateur

#fairness

Voir biais de confirmation.

F

contrainte d'équité

#fairness
Application d'une contrainte à un algorithme pour s'assurer qu'une ou plusieurs définitions d'équité sont respectées. Voici quelques exemples de contraintes d'équité:

métrique d'équité

#fairness

Une définition mathématique de l'équité qui est mesurable Voici quelques métriques d'équité couramment utilisées:

De nombreuses métriques d'équité sont mutuellement exclusives. Consultez la section Incompatibilité des métriques d'équité.

G

biais de représentativité

#fairness

Fait de supposer que ce qui s'applique à un individu s'applique également à tous les membres du groupe auquel cet individu appartient. Les effets du biais de représentativité peuvent être exacerbés si un échantillonnage de commodité est utilisé pour la collecte de données. Dans un échantillon non représentatif, il est possible de faire des attributions qui ne reflètent pas la réalité.

Voir aussi le biais d'homogénéité de l'exogroupe et le biais d'appartenance. Pour en savoir plus, consultez également la section Équité: types de biais du cours d'initiation au machine learning.

H

biais historique

#fairness

Type de biais qui existe déjà dans le monde et s'est glissé dans un ensemble de données. Ces biais ont tendance à refléter les stéréotypes culturels existants, les inégalités démographiques et les préjugés envers certains groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt fera défaut sur son prêt. Il a été entraîné sur des données historiques sur les défauts de paiement des prêts des années 1980 provenant de banques locales de deux communautés différentes. Si les anciens candidats de la communauté A étaient six fois plus susceptibles de faire défaut sur leurs prêts que ceux de la communauté B, le modèle pourrait apprendre un biais historique, ce qui le rendrait moins susceptible d'approuver des prêts dans la communauté A, même si les conditions historiques qui ont entraîné des taux de défaut plus élevés dans cette communauté n'étaient plus pertinentes.

Pour en savoir plus, consultez la section Équité: types de biais dans le cours d'initiation au machine learning.

I

biais implicite

#fairness

Fait de faire automatiquement une association ou une hypothèse sur la base de ses propres modèles mentaux et souvenirs. Le biais implicite peut avoir une incidence sur les points suivants:

  • Manière dont les données sont collectées et classées.
  • Manière dont les systèmes de machine learning sont conçus et développés.

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser comme caractéristique une robe blanche trouvée sur une photo. Cependant, les robes blanches ne sont d'usage que dans certaines cultures et, de surcroît, seulement à certaines époques.

Voir aussi le biais de confirmation.

Incompatibilité des critères d'équité

#fairness

Idée selon laquelle certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité soient infructueux. Il suggère plutôt que l'équité doit être définie selon un contexte et un problème de ML donné, dans le but d'éviter les dommages spécifiques à ses cas d'utilisation.

Pour en savoir plus sur ce sujet, consultez "On the (im)possibility of fairness" (Sur l'impossibilité de l'impartialité).

équité individuelle

#fairness

Métrique d'équité qui vérifie si des individus similaires sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut vouloir garantir l'équité individuelle en s'assurant que deux élèves ayant des notes et des résultats aux tests standardisés identiques ont autant de chances d'être admis.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similitude" (dans ce cas, les notes et les notes de test). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité ne tient pas compte d'informations importantes (telles que la rigueur du programme d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez "Équité grâce à la sensibilisation".

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres traits caractéristiques. Si les testeurs ou les évaluateurs sont composés d'amis, de membres de la famille ou de collègues du développeur en machine learning, alors le biais d'appartenance peut invalider le test du produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais de représentativité. Voir aussi le biais d'homogénéité de l'exogroupe.

Pour en savoir plus, consultez la section Équité: types de biais du cours d'initiation au machine learning.

N

biais de non-réponse

#fairness

Voir biais de sélection.

O

biais d'homogénéité de l'exogroupe

#fairness

Tendance à percevoir les membres d'un exogroupe comme plus semblables que les membres de son groupe d'appartenance lorsque l'on compare les attitudes, les valeurs, les traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant à des personnes de fournir des attributs relatifs à des exogroupes, ces attributs seront probablement moins nuancés et plus stéréotypés que les attributs mis en avant quant au groupe d'appartenance des participants.

Par exemple, des Lilliputiens pourraient décrire de manière très détaillée les maisons d'autres Lilliputiens, en mentionnant de légères différences dans les styles architecturaux, les fenêtres, les portes et les dimensions. Cependant, les mêmes Lilliputiens pourraient simplement affirmer que les Brobdingnagiens habitent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Voir aussi biais d'appartenance.

P

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

post-traitement

#fairness
#fundamentals

Ajustement de la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer un post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut en vérifiant que le taux de vrai positif est le même pour toutes les valeurs de cet attribut.

parité prédictive

#fairness

Métrique d'équité qui vérifie si, pour un classifieur donné, les taux de précision sont équivalents pour les sous-groupes considérés.

Par exemple, un modèle qui prédit l'acceptation dans une université satisferait la parité prédictive pour la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagiens.

La parité prédictive est parfois appelée parité tarifaire prédictive.

Pour en savoir plus sur la parité prédictive, consultez la section Définitions de l'équité (section 3.2.1).

parité tarifaire prédictive.

#fairness

Autre nom de la parité prédictive.

prétraitement

#fairness
Traitement des données avant qu'elles ne soient utilisées pour entraîner un modèle. Le prétraitement peut être aussi simple que la suppression de mots d'un corpus de texte en anglais qui ne figurent pas dans le dictionnaire anglais, ou aussi complexe que la réexpression des points de données de manière à éliminer autant que possible les attributs corrélés à des attributs sensibles. Le prétraitement peut aider à respecter les contraintes d'équité.

proxy (attributs sensibles)

#fairness
Attribut utilisé comme substitut d'un attribut sensible. Par exemple, le code postal d'une personne peut être utilisé comme indicateur de son revenu, de sa race ou de son origine ethnique.

R

biais de fréquence

#fairness

Fait que le rythme auquel les personnes écrivent à propos d'actions, de résultats ou de propriétés ne reflète pas leur rythme dans le monde réel ou le degré selon lequel une propriété est caractéristique d'une classe d'individus. Le biais de fréquence peut influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning conçu pour estimer à partir d'un corpus de livres la fréquence relative du fait de rire et du fait de respirer déterminerait probablement que le premier est plus courant que le second.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

biais de sélection

#fairness

Erreurs dans les conclusions tirées des échantillons de données en raison d'un processus de sélection générant des différences systématiques entre les échantillons observés dans les données et ceux non observés. Le biais de sélection existe sous les formes suivantes:

  • biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à celle sur laquelle le modèle de machine learning fait des prédictions.
  • biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.
  • biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes refusent de participer à certaines enquêtes à des taux différents des utilisateurs d'autres groupes.

Supposons que vous créez un modèle de machine learning qui prédit le succès d'un film. Pour collecter les données d'entraînement, vous distribuez une enquête à toutes les personnes situées au premier rang d'une salle de cinéma projetant le film. Même si de prime abord cette approche peut sembler être un bon moyen de recueillir un ensemble de données, elle peut introduire les formes de biais de sélection suivantes:

  • Biais de couverture: en échantillonnant à partir d'une population qui a voulu voir le film, les prédictions de votre modèle peuvent mal se généraliser à des personnes qui n'ont pas manifesté un tel intérêt pour le film.
  • Biais d'échantillonnage: plutôt que d'échantillonner aléatoirement la population visée (toutes les personnes dans la salle), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes du premier rang sont plus intéressées par le film que les personnes des autres rangs.
  • Biais de non-réponse: en général, les personnes qui ont des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que les personnes qui ont des opinions modérées. Comme l'enquête sur le film est facultative, il est plus probable que les réponses forment une distribution bimodale plutôt qu'une distribution normale (en cloche).

attribut sensible

#fairness
Attribut humain auquel une attention particulière peut être accordée pour des motifs juridiques, éthiques, sociaux ou personnels.

U

ignorance (d'un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont présents, mais pas inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs des données, un modèle entraîné sans connaissance d'un attribut sensible peut toujours avoir un impact différent par rapport à cet attribut ou ne pas respecter d'autres contraintes d'équité.