Glossaire du machine learning: Équité

Cette page contient des termes du glossaire sur l'équité. Pour consulter tous les termes du glossaire, cliquez ici.

A

Attribut

#fairness

Synonyme de caractéristique.

Dans le domaine de l'équité dans le machine learning, les attributs font souvent référence à des caractéristiques propres aux individus.

biais d'automatisation

#fairness

Lorsqu'un décideur humain privilégie les recommandations d'un système de prise de décision automatisé par rapport aux informations obtenues sans automatisation, même lorsque le système de prise de décision automatisé compromet des erreurs.

B

biais (éthique/impartialité)

#fairness
#fundamentals

1. Stéréotypes, préjugés ou favoritisme envers certaines choses, certaines personnes ou certains groupes par rapport à d'autres. Ces biais peuvent affecter la collecte et l'interprétation des données, la conception d'un système et la façon dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de préjugé sont les suivantes:

2. Erreur systématique introduite par une procédure d'échantillonnage ou de création de rapports Les formes de ce type de préjugé sont les suivantes:

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

C

biais de confirmation

#fairness

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données de manière à influencer un résultat soutenant leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

Le biais de l'expérimentateur est une forme de biais de confirmation par lequel un expérimentateur continue à entraîner des modèles jusqu'à ce qu'une hypothèse préexistante soit confirmée.

équité contrefactuelle

#fairness

Métrique d'équité qui vérifie si un classificateur produit le même résultat pour un individu que pour un autre individu identique au premier, sauf en ce qui concerne un ou plusieurs attributs sensibles. Évaluer l'équité contrefactuelle d'un classificateur est une méthode permettant de mettre en évidence les sources potentielles de biais dans un modèle.

Pour en savoir plus sur l'équité contrefactuelle, consultez l'article Quand Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

biais de couverture

#fairness

Voir biais de sélection.

D

parité démographique

#fairness

Métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnagians postulent tous les deux à l'Université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens acceptés est identique au pourcentage de Brobdingnagians acceptés, qu'un groupe soit en moyenne plus qualifié que l'autre.

À comparer aux cotes égales et à l'égalité des chances, qui permettent aux résultats de classification agrégés de dépendre d'attributs sensibles, mais qui empêchent les résultats de classification de certaines étiquettes de vérité terrain spécifiées de dépendre d'attributs sensibles. Consultez l'article Lutter contre la discrimination grâce à un machine learning plus intelligent pour obtenir une visualisation qui examine les compromis liés à l'optimisation pour la parité démographique.

impact disparate

#fairness

Prendre des décisions sur les personnes qui ont un impact disproportionné sur les différents sous-groupes de la population. Il s'agit généralement de situations dans lesquelles un processus de prise de décision basé sur un algorithme nuit ou profite plus à certains sous-groupes que d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un lilliputien à un prêt immobilier miniature est plus susceptible de le classer dans la catégorie "inéligible" si son adresse postale contient un certain code postal. Si les Lilliputiens du Big-Endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputiens de Little-Endian, cet algorithme peut avoir un impact disparate.

À comparer au traitement disparates, qui se concentre sur les disparités qui se produisent lorsque les caractéristiques des sous-groupes sont des entrées explicites dans un processus de prise de décision algorithmique.

traitement disparate

#fairness

Prendre en compte les attributs sensibles des sujets dans un processus de prise de décision algorithmique de sorte que les différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt immobilier miniature en fonction des données fournies dans leur demande de prêt. Si l'algorithme utilise comme entrée l'affiliation d'un lilliputien en tant que big-endian ou Little-Endian, il applique un traitement disparate selon cette dimension.

À comparer à l'impact incohérent, qui se concentre sur les disparités dans l'impact sociétal des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient ou non des entrées du modèle.

E

égalité des chances

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit aussi bien le résultat souhaitable pour toutes les valeurs d'un attribut sensible. En d'autres termes, si le résultat souhaitable d'un modèle est la classe positive, l'objectif est que le taux de vrais positifs soit le même pour tous les groupes.

L'égalité des chances est liée aux cotes égales, qui nécessitent que les taux de vrais positifs et de faux positifs soient identiques pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte à la fois des Lilliputiens et des Brobdingnagians à un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des étudiants sont qualifiés pour le programme universitaire. Les écoles secondaires de Brobdingnagians ne proposent pas du tout de cours de mathématiques et, par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est satisfaite pour le libellé "admis" par rapport à la nationalité (liliputien ou brobdingnagien) si les étudiants qualifiés sont également susceptibles d'être admis, qu'ils soient un Lilliputien ou un Brobdingnagian.

Par exemple, supposons que 100 Lilliputiens et 100 Brodingnagians postulent à l'Université de Glubbdubdrib, et que les décisions d'admission soient prises comme suit:

Tableau 1. Candidats lilliputiens (90% sont qualifiés)

  Qualifié Non défini
Accepté 45 3
Refusé(e) 45 7
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'élèves non qualifiés refusés: 7/10 = 70%
Pourcentage total d'étudiants lilliputiens acceptés: (45 + 3)/100 = 48%

 

Tableau 2. Candidats Brobdingnagian (10% sont qualifiés):

  Qualifié Non défini
Accepté 5 9
Refusé(e) 5 81
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'élèves non qualifiés refusés: 81/90 = 90%
Pourcentage total d'étudiants Brobdingnagiens acceptés: (5 + 9)/100 = 14%

Les exemples précédents assurent l'égalité des chances d'acceptation des étudiants qualifiés, car les Lilliputiens et les Brobdingnagians qualifiés ont tous deux 50% de chances d'être admis.

Si l'égalité des chances est satisfaite, les deux métriques d'équité suivantes ne le sont pas:

  • Parité démographique: les Lilliputiens et les Brobdingnagians sont admis à l'université à des taux différents. 48% des Lilliputiens sont admis, mais seulement 14% des Brobdingnagiens.
  • Probabilités égales: bien que les étudiants Lilliputiens et Brobdingnagiens qualifiés aient tous les deux les mêmes chances d'être admis, la contrainte supplémentaire selon laquelle les Lilliputiens et les Brobdingnagians non qualifiés ont tous deux la même chance d'être rejetés n'est pas satisfaite. Les Lilliputiens non qualifiés présentent un taux de refus de 70 %, tandis que les Brobdingnagians non qualifiés présentent un taux de refus de 90 %.

Pour obtenir des informations plus détaillées sur l'égalité des chances, consultez la page Égalité des opportunités dans l'apprentissage supervisé. Consultez également l'article Lutter contre la discrimination grâce à un machine learning plus intelligent pour consulter une visualisation qui examine les compromis liés à l'optimisation à des fins d'égalité des chances.

cotes égales

#fairness

Métrique d'équité permettant d'évaluer si un modèle prédit des résultats de manière égale pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et pas seulement à l'une ou l'autre classe. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

Les cotes égales sont liées à l'égalité des chances, qui ne se concentre que sur les taux d'erreur d'une seule classe (positive ou négative).

Supposons, par exemple, que l'université Glubbdubdrib accepte à la fois des Lilliputiens et des Broobdingnagians à un programme de mathématiques rigoureux. Les écoles secondaires des Lilliputiens proposent un solide programme de cours de mathématiques et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les écoles secondaires de Brobdingnagians ne proposent pas du tout de cours de mathématiques et, par conséquent, beaucoup moins d'étudiants sont qualifiés. Les probabilités égales sont satisfaites à condition qu'il s'agisse d'un Lilliputien ou d'un Brobdingnagian. S'il est qualifié, il est tout aussi susceptible d'être admis dans le programme. S'il ne l'est pas, il est tout aussi probable qu'il soit rejeté.

Supposons que 100 liliputiens et 100 brobdingnagians postulent à cette université, et que les décisions concernant les admissions soient prises comme suit:

Tableau 3 : Candidats lilliputiens (90% sont qualifiés)

  Qualifié Non défini
Accepté 45 2
Refusé(e) 45 8
Total 90 10
Pourcentage d'étudiants qualifiés admis: 45/90 = 50%
Pourcentage d'élèves non qualifiés refusés: 8/10 = 80%
Pourcentage total d'étudiants lilliputiens acceptés: (45 + 2)/100 = 47%

 

Tableau 4. Candidats Brobdingnagian (10% sont qualifiés):

  Qualifié Non défini
Accepté 5 18
Refusé(e) 5 72
Total 10 90
Pourcentage d'étudiants qualifiés admis: 5/10 = 50%
Pourcentage d'élèves non qualifiés rejetés: 72/90 = 80%
Pourcentage total d'étudiants Brobdingnagiens acceptés: (5 + 18)/100 = 23%

Les probabilités égales sont satisfaites, car les étudiants qualifiés de Lilliputian et Brobdingnagian ont tous deux 50% de chances d'être admis, tandis que les Lilliputian et Brobdingnagian non qualifiés ont 80% de chances d'être rejetés.

Les probabilités égales sont formellement définies dans "Égalité des opportunités dans l'apprentissage supervisé" comme suit : "predictor ¥ répond aux probabilités égales vis-à-vis de l'attribut protégé A et du résultat Y si M' et A sont indépendants et conditionnels à Y."

biais de l'expérimentateur

#fairness

Voir biais de confirmation.

F

contrainte d'équité

#fairness
Application d'une contrainte à un algorithme pour s'assurer qu'une ou plusieurs définitions d'impartialité sont respectées. Voici quelques exemples de contraintes d'équité:

métrique d'équité

#fairness

Définition mathématique d'« impartialité » qui est mesurable. Voici quelques métriques d'équité couramment utilisées:

De nombreuses métriques d'équité s'excluent mutuellement. Consultez la section Métriques d'incompatibilité des métriques d'équité.

G

biais d'attribution de groupe

#fairness

Nous partons du principe que ce qui est vrai pour un individu l'est également pour tous les membres de ce groupe. Les effets du biais d'attribution de groupe peuvent être exacerbés si un échantillonnage de commodité est utilisé pour la collecte des données. Dans un échantillon non représentatif, des attributions qui ne reflètent pas la réalité peuvent être faites.

Voir aussi biais d'homogénéité de l'exogroupe et biais d'appartenance.

H

biais historique

#fairness

Type de biais qui existe déjà dans le monde et qui a été introduit dans un ensemble de données. Ces biais ont tendance à refléter les stéréotypes culturels, les inégalités démographiques et les préjugés à l'encontre de certains groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt risque de manquer ou non son prêt. Il a été entraîné sur des données historiques de prêt par défaut des années 1980 par des banques locales de deux communautés différentes. Si les anciens candidats de la Communauté A étaient six fois plus susceptibles de se retrouver en défaut de paiement que ceux de la Communauté B, le modèle pourrait apprendre un biais historique et diminuer la probabilité d'approbation des prêts dans la Communauté A, même si les conditions historiques ayant entraîné des taux de défaut plus élevés pour cette communauté ne sont plus pertinentes.

I

biais implicite

#fairness

Créer automatiquement une association ou une hypothèse sur la base de ses modèles intelligents et de ses mémoires. Les biais implicites peuvent avoir une incidence sur les éléments suivants:

  • Comment les données sont collectées et classées.
  • Conception et développement des systèmes de machine learning

Par exemple, lors de la création d'un classificateur pour identifier des photos de mariage, un ingénieur peut utiliser la présence d'une robe blanche sur une photo comme caractéristique. Toutefois, les robes blanches ne sont d'usage qu'à certaines époques et dans certaines cultures.

Voir aussi biais de confirmation.

incompatibilité des métriques d'équité

#fairness

Idée selon laquelle certaines notions d'équité sont incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, aucune métrique universelle unique pour quantifier l'équité ne peut être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts déployés en la matière ne portent pas leurs fruits. Au lieu de cela, il suggère que l'équité doit être définie en contexte pour un problème de ML donné, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Consultez la section Sur la possibilité ou l'impartialité pour une discussion plus détaillée à ce sujet.

équité individuelle

#fairness

Métrique d'équité qui vérifie si des personnes similaires sont classées de la même manière. Par exemple, Brobdingnagian Academy peut souhaiter respecter l'équité individuelle en s'assurant que deux élèves ayant des notes identiques et des résultats d'examen standardisés aient une chance égale d'obtenir une admission.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous pouvez courir le risque d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque d'informations importantes (telles que la rigueur du programme d'un étudiant).

Pour une discussion plus détaillée sur l'équité individuelle, consultez la section Équité grâce à la notoriété.

biais d'appartenance

#fairness

Faire preuve de partialité envers son propre groupe ou ses propres caractéristiques. Si les testeurs ou évaluateurs sont constitués d'amis, de membres de la famille ou de collègues du développeur de machine learning, alors le biais d'appartenance peut invalider les tests de produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais d'attribution de groupe. Voir aussi Biais d'homogénéité de l'exogroupe.

N

biais de non-réponse

#fairness

Voir biais de sélection.

O

biais d'homogénéité de l'exogroupe

#fairness

Tendance à considérer les membres de l'exogroupe comme plus semblables que les membres de l'ensemble du groupe lorsque l'on compare les attitudes, les valeurs, les traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant aux personnes de fournir des attributs concernant les exogroupes, ces attributs peuvent être moins nuancés et plus stéréotypés que ceux listés par les participants pour les personnes de leur groupe.

Par exemple, les Lilliputiens pourraient décrire les maisons d'autres Lilliputiens avec beaucoup de détails, en citant de légères différences au niveau des styles architecturaux, des fenêtres, des portes et des tailles. Cependant, les mêmes Lilliputiens pourraient simplement déclarer que les Broobdingnagians vivent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais d'attribution de groupe.

Voir aussi biais d'appartenance.

P

biais de participation

#fairness

Synonyme de biais de non-réponse. Voir biais de sélection.

post-traitement

#fairness
#fundamentals

Ajuster la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, vous pouvez appliquer le post-traitement à un classificateur binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

parité prédictive

#fairness

Métrique d'équité qui vérifie si, pour un classificateur donné, les taux de précision sont équivalents pour les sous-groupes en question.

Par exemple, un modèle qui prédit l'admission à l'université respecterait la parité prédictive pour la nationalité si son taux de précision est le même pour les Lilliputiens et les Brobdingnagians.

La parité prédictive est parfois également appelée parité du taux de prédiction.

Pour plus de détails sur la parité prédictive, reportez-vous à la section Définitions de l'équité (section 3.2.1).

parité des taux prédictifs

#fairness

Autre nom pour désigner la parité prédictive.

prétraitement

#fairness
Traiter les données avant de les utiliser pour entraîner un modèle Le prétraitement peut être aussi simple que de supprimer des mots d'un corpus de textes en anglais qui ne figurent pas dans le dictionnaire anglais. Il peut aussi être aussi complexe que de réexprimer des points de données de manière à éliminer autant d'attributs que possible en corrélation avec les attributs sensibles. Le prétraitement peut aider à répondre aux contraintes d'équité.

proxy (attributs sensibles)

#fairness
Attribut utilisé en remplacement d'un attribut sensible. Par exemple, le code postal d'un individu peut être utilisé comme indicateur de ses revenus, de son origine ethnique ou de son origine ethnique.

R

biais de fréquence

#fairness

Le fait que la fréquence à laquelle les individus écrivent sur des actions, des résultats ou des propriétés ne reflète pas leur fréquence réelle ni le degré de caractéristique d'une propriété d'une classe d'individus. Le biais de fréquence peut influencer la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de machine learning qui estime la fréquence relative du rire et de la respiration à partir d'un corpus de livres déterminerait probablement que le rire est plus courant que la respiration.

S

biais d'échantillonnage

#fairness

Voir biais de sélection.

biais de sélection

#fairness

Erreurs dans les conclusions tirées de données échantillonnées en raison d'un processus de sélection qui génère des différences systématiques entre les échantillons observés dans les données et ceux non observés. Les formes de biais de sélection suivantes existent:

  • Biais de couverture: la population représentée dans l'ensemble de données ne correspond pas à la population pour laquelle le modèle de machine learning effectue des prédictions.
  • biais d'échantillonnage: les données ne sont pas collectées aléatoirement auprès du groupe cible.
  • biais de non-réponse (également appelé biais de participation): les utilisateurs de certains groupes désactivent les enquêtes à des taux différents de ceux des utilisateurs d'autres groupes.

Par exemple, supposons que vous créiez un modèle de machine learning qui prédit le plaisir d'un film par les gens. Pour recueillir des données d'entraînement, vous distribuez une enquête à toutes les personnes situées au premier rang d'une salle de cinéma projetant le film. D'un coup, cela peut sembler être un moyen raisonnable de rassembler un ensemble de données. Cependant, cette forme de collecte de données peut introduire les formes de biais de sélection suivantes:

  • Biais de couverture: en effectuant un échantillonnage à partir d'une population qui a choisi de voir le film, les prédictions de votre modèle peuvent ne pas se généraliser aux personnes qui n'ont pas encore exprimé ce niveau d'intérêt pour le film.
  • Biais d'échantillonnage: plutôt que d'effectuer un échantillonnage aléatoire de la population visée (toutes les personnes du film), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes assises au premier rang soient plus intéressées par le film que celles des autres rangées.
  • Biais de non-réponse: en général, les personnes ayant des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que celles ayant des opinions modérées. Comme l'enquête sur le film est facultative, les réponses sont plus susceptibles de former une distribution bimodale qu'une distribution normale (en cloche).

attribut sensible

#fairness
Attribut humain pouvant faire l'objet d'une attention particulière pour des raisons juridiques, éthiques, sociales ou personnelles.

U

méconnaissance (à un attribut sensible)

#fairness

Situation dans laquelle des attributs sensibles sont présents, mais ne sont pas inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs des données d'un utilisateur, un modèle entraîné avec une méconnaissance d'un attribut sensible peut tout de même avoir un impact disparate sur cet attribut ou violer d'autres contraintes d'équité.