Équité: équité contrefactuelle

Jusqu'à présent, nos discussions sur les métriques d'équité ont supposé que notre formation et les exemples de test contiennent des données démographiques complètes sous-groupes en cours d’évaluation. Mais ce n'est souvent pas le cas.

Supposons que notre ensemble de données sur les admissions ne contient pas de données démographiques complètes. L'appartenance à un groupe démographique n'est enregistrée que pour un faible pourcentage d'exemples, comme les élèves qui ont choisi d'identifier eux-mêmes le groupe auquel appartenaient. Dans ce cas, la répartition de notre pool de candidats en candidats et les élèves rejetés se présente comme suit:

Un pool de 100 étudiants, divisé en deux groupes:
      Candidats rejetés (80 icônes d'étudiants) et Candidats acceptés (20
      les icônes des élèves). Toutes les icônes sont grisées (ce qui signifie que leur
      groupe démographique inconnu), à l'exception de six icônes. Dans la section
      groupe, deux icônes d'élèves sont grisées et deux icônes d'élèves sont grisées
      orange. Dans la catégorie "Accepté", l'icône d'un élève apparaît en bleu et l'autre est
      orange ombré.
Figure 5 : Pool de candidats avec appartenance à un groupe démographique inconnu pour la quasi-totalité des candidats (icônes grisées).

Il n'est pas possible d'évaluer les prédictions du modèle pour les données démographiques la parité ou l'égalité des chances, car nous ne disposons pas de données démographiques pour 94% de nos exemples. Toutefois, pour les 6% d'exemples contenant les caractéristiques démographiques, il est toujours possible de comparer des paires de prédictions individuelles (un candidat à la majorité ou d'une minorité) et voyez s'il a été de façon équitable par le modèle.

Imaginons, par exemple, que nous ayons examiné en détail les données de caractéristiques disponible pour deux candidats (un dans le groupe majoritaire et l'autre dans la minorité) , annotée avec une étoile dans l'image ci-dessous) et a déterminé qu'elle sont éligibles à tous égards. Si le modèle fait la même prédiction pour ces deux candidats (c'est-à-dire que l'un ou l'autre rejette les deux ou accepte les deux), elle satisfait aux constatations contradictoires équitable pour ces exemples. L’impartialité contrefactuelle stipule que deux Exemples identiques à tous égards, à l'exception d'un attribut sensible donné (dans le cas présent, l'appartenance à un groupe démographique), doit donner le même modèle la prédiction.

Même pool de candidats que dans l'image précédente, sauf dans
      dans cette version, une icône bleue d'élève (appartenant au groupe majoritaire) et
      une icône orange d'élève (appartenant au groupe minoritaire) dans la catégorie "Refusé".
      sont signalés par une étoile, ce qui indique que ces deux candidats sont
      identiques (hormis le groupe démographique).
Figure 6 : L'équité contrefactuelle est respectée dans les deux cas de figure. (qui varient uniquement en fonction de l'appartenance à un groupe démographique) annotées avec étoile, car le modèle prend la même décision pour les deux (Refusé).

Avantages et inconvénients

Comme mentionné précédemment, l'un des principaux avantages de l'impartialité contrefactuelle est qu'elle peut servir à évaluer l'équité des prédictions dans de nombreux cas où l'utilisation d’autres métriques ne serait pas faisable. Si un jeu de données ne contient pas un ensemble complet des valeurs de caractéristiques pour les attributs de groupe pertinents en cours de considération, d'évaluer l'impartialité à l'aide de la parité démographique ou de l'égalité des opportunité. Toutefois, si ces attributs de groupe sont disponibles pour un sous-ensemble d'exemples, et il est possible d'identifier des paires comparables exemples appartenant à différents groupes, les professionnels peuvent avoir recours à l'impartialité contrefactuelle comme métrique pour détecter d'éventuels biais dans les prédictions du modèle.

De plus, comme des métriques telles que la parité démographique et l'égalité des les opportunités évaluent les groupes de façon globale, ils peuvent masquer des problèmes de biais qui affectent le modèle au niveau des prédictions individuelles, lesquelles peuvent être mises en évidence à l'aide d'une équité contrefactuelle. Par exemple, supposons que nos admissions accepte les candidats qualifiés du groupe majoritaire et de la minorité dans la même proportion, mais le candidat de la minorité la plus qualifiée est rejetés, alors que le candidat le plus qualifié ayant obtenu la même identifiants de connexion est accepté. Une analyse d’impartialité contrefactuelle peut aider à identifier ce genre d'écarts afin qu'ils puissent être résolus.

D'un autre côté, l'inconvénient clé de l'impartialité contrefactuelle est qu'elle ne offrent une vision globale des biais dans les prédictions du modèle. L’identification et corriger quelques inégalités par paires d'exemples n'est peut-être pas suffisant. pour résoudre les problèmes de biais systémiques qui affectent des sous-groupes entiers d’exemples.

Lorsque cela est possible, ils peuvent envisager d'effectuer à la fois un agrégat une analyse de l'impartialité (à l'aide d'une métrique telle que la parité démographique ou l'égalité des opportunité) et d'une analyse d'équité contrefactuelle pour obtenir la un ensemble d'insights sur les problèmes de biais potentiels à corriger.

Exercice: tester vos connaissances

Exercice. Deux groupes de cercles: À exclure
             Prédictions et prédictions positives.
             Les prédictions négatives comportent 50 cercles:
             39 cercles gris, 8 cercles bleus et 3 cercles orange. Un
             le cercle bleu est étiqueté « A », un cercle orange étiqueté « A »,
             et un cercle bleu 
est étiqueté « C ». 
             Les prédictions positives comportent 15 cercles:
             10 cercles gris, 3 cercles bleus et 2
             cercles orange. Un cercle bleu est étiqueté "B", un orange
             cercle est étiqueté "B" et un cercle bleu "C".
             Une légende sous le diagramme indique
que les cercles bleus représentent
             exemple dans le groupe majoritaire, les cercles orange représentent
             un exemple dans le groupe minoritaire et 
les cercles gris représentent
             Exemples dont l'appartenance au groupe est inconnue
Figure 7. Des prédictions négatives et positives pour un lot d'exemples, avec trois paires d'exemples étiquetés A, B et C.

Parmi les prédictions de la figure 7 ci-dessus, laquelle paires suivantes d'identiques identiques (à l'exception des membres d'un groupe) exemples reçus de prédictions qui enfreignent l'équité contrefactuelle ?

Paire A
Les prédictions de la paire A satisfont à l'équité contrefactuelle, car les deux l'exemple dans le groupe majoritaire (en bleu) et l'exemple dans le groupe groupe minoritaire (orange) a reçu la même prédiction (négative).
Paire B
Les prédictions de la paire B satisfont à l'équité contrefactuelle, car les deux l'exemple dans le groupe majoritaire (en bleu) et l'exemple dans le groupe groupe minoritaire (orange) a reçu la même prédiction (positive).
Paire C
Les prédictions de la paire C concernent deux exemples qui appartiennent tous les deux au groupe majoritaire (bleu). Le fait que le modèle ait produit des les prédictions pour ces exemples identiques suggèrent des problèmes de performances plus larges, étudiées. Cependant, ce résultat n'enfreint pas les faits contrefactuels l’impartialité, dont les conditions ne s’appliquent que dans les cas où des exemples identiques sont chacun tirés de groupes différents.
Aucune de ces paires n'enfreint l'équité contrefactuelle
Les prédictions des paires A et B satisfont à l'équité contrefactuelle. car, dans les deux cas, l'exemple dans le groupe majoritaire exemple dans le groupe minoritaire reçoivent la même prédiction. Couplage C exemples appartiennent tous deux au même groupe (le groupe majoritaire). l'équité contrefactuelle n'est pas applicable dans ce cas.

Résumé

Parité démographique l'égalité des chances, et l'impartialité contrefactuelle fournissent chacune des définitions mathématiques différentes de l'équité pour les prédictions du modèle. Et ce ne sont que trois possibles moyens de quantifier l’impartialité. Certaines définitions de l'impartialité sont même mutuellement incompatibles, ce qui signifie qu'il peut être impossible de les satisfaire en même temps les prédictions d'un modèle donné.

Alors, comment choisir le "bon" d'équité de votre modèle ? Vous devez tenez compte du contexte dans lequel elles sont utilisées et des objectifs globaux que vous souhaitez accomplir. Par exemple, l'objectif est-il d'obtenir une représentation égale (dans ce cas, la parité démographique peut être la métrique optimale) ou à atteindre l'égalité des chances (ici, l'égalité des chances peut être métrique) ?

Pour en savoir plus sur l'équité en matière de ML et explorer ces questions plus en détail, consultez Fairness and Machine Learning: Limitations and Opportunities de Solon Barocas, Moritz Hardt et Arvind Narayanan.