Cette page a été traduite par l'API Cloud Translation.

Glossaire du machine learning: IA responsable

Cette page contient des termes du glossaire sur l'IA responsable. Pour consulter tous les termes du glossaire, cliquez ici.

A

attribut

#responsible

Synonyme de caractéristique.

Dans l'équité du machine learning, les attributs font souvent référence à des caractéristiques propres aux individus.

biais d'automatisation

#responsible

Lorsqu'un décisionnaire humain donne priorité aux recommandations d'un système automatisé de prise de décision par rapport aux informations ne provenant pas d'un processus d'automatisation, même en cas d'erreur du système automatisé.

Pour en savoir plus, consultez Équité : types de biais dans le cours d'initiation au machine learning.

B

biais (éthique/équité) (bias (ethics/fairness))

#responsible

#fundamentals

1. Stéréotypes, préjudice ou favoritisme envers certains groupes, choses ou personnes par rapport à d'autres. Ces biais peuvent avoir une incidence sur la collecte et l'interprétation des données, ainsi que sur la conception d'un système et la manière dont les utilisateurs interagissent avec celui-ci. Les formes de ce type de biais comprennent les éléments suivants :

biais d'automatisation
biais de confirmation
effet expérimentateur
biais de représentativité
biais implicite
biais d'appartenance
biais d'homogénéité de l'exogroupe

2. Erreur systématique introduite par une procédure d'échantillonnage ou de rapport. Les formes de ce type de biais comprennent les éléments suivants :

Biais de couverture
biais de non-réponse
biais de participation
biais de fréquence
biais d'échantillonnage
biais de sélection

À ne pas confondre avec le biais des modèles de machine learning ou le biais de prédiction.

Pour en savoir plus, consultez Équité : types de biais dans le cours d'initiation au machine learning.

C

biais de confirmation

#responsible

Tendance à rechercher, interpréter, favoriser et rappeler des informations d'une manière qui confirme ses propres croyances ou hypothèses préexistantes. Les développeurs en machine learning peuvent collecter ou étiqueter par inadvertance des données d'une telle manière que cela influence la production d'un résultat confortant leurs croyances existantes. Le biais de confirmation est une forme de biais implicite.

L'effet expérimentateur est une forme de biais de confirmation dans lequel un expérimentateur continue d'entraîner des modèles jusqu'à confirmation d'une hypothèse préexistante.

équité contrefactuelle

#responsible

#Metric

Une métrique d'équité qui vérifie si un modèle de classification produit le même résultat pour une personne que pour une autre qui est identique à la première, sauf en ce qui concerne un ou plusieurs attributs sensibles. L'évaluation d'un modèle de classification pour l'équité contrefactuelle est une méthode permettant d'identifier les sources potentielles de biais dans un modèle.

Pour en savoir plus, consultez les ressources suivantes :

Équité : équité contrefactuelle dans le cours d'initiation au machine learning
Quand les mondes se rencontrent : intégrer différentes hypothèses contrefactuelles dans l'équité

biais de couverture

#responsible

Voir biais de sélection.

D

parité démographique

#responsible

#Metric

Une métrique d'équité qui est satisfaite si les résultats de la classification d'un modèle ne dépendent pas d'un attribut sensible donné.

Par exemple, si les Lilliputiens et les Brobdingnags postulent à l'université de Glubbdubdrib, la parité démographique est atteinte si le pourcentage de Lilliputiens admis est le même que celui des Brobdingnags, que l'un des groupes soit en moyenne plus qualifié que l'autre ou non.

À comparer avec l'égalité des chances et l'égalité des opportunités, qui permettent aux résultats de classification agrégés de dépendre des attributs sensibles, mais pas aux résultats de classification pour certains libellés de vérité terrain spécifiés. Consultez "Attacking discrimination with smarter machine learning" (Lutter contre la discrimination grâce à un machine learning plus intelligent) pour une visualisation explorant les compromis lors de l'optimisation pour la parité démographique.

Pour en savoir plus, consultez Équité : parité démographique dans le Cours d'initiation au Machine Learning.

Impact disparate

#responsible

Prendre des décisions concernant des personnes qui ont un impact disproportionné sur différents sous-groupes de population. Il s'agit généralement de situations dans lesquelles un processus de prise de décision algorithmique nuit à certains sous-groupes ou leur profite plus qu'à d'autres.

Par exemple, supposons qu'un algorithme qui détermine l'éligibilité d'un Lilliputien à un prêt immobilier miniature est plus susceptible de le classer comme "non éligible" si son adresse postale contient un certain code postal. Si les Lilliputiens Big-Endian sont plus susceptibles d'avoir des adresses postales avec ce code postal que les Lilliputiens Little-Endian, cet algorithme peut entraîner un impact disparate.

À comparer au traitement différentiel, qui se concentre sur les disparités résultant de caractéristiques de sous-groupes qui sont des entrées explicites dans un processus de prise de décision algorithmique.

traitement inégalitaire

#responsible

Intégration des attributs sensibles des sujets dans un processus de prise de décision algorithmique de sorte que différents sous-groupes de personnes soient traités différemment.

Prenons l'exemple d'un algorithme qui détermine l'éligibilité des Lilliputiens à un prêt pour une maison miniature en fonction des données qu'ils fournissent dans leur demande de prêt. Si l'algorithme utilise l'affiliation d'un Lilliputien en tant que Big-Endian ou Little-Endian comme entrée, il applique un traitement différentiel selon cette dimension.

À l'inverse de l'impact disparate, qui se concentre sur les disparités dans les impacts sociétaux des décisions algorithmiques sur les sous-groupes, que ces sous-groupes soient des entrées du modèle ou non.

E

l'égalité des chances.

#responsible

#Metric

Une métrique d'équité permettant d'évaluer si un modèle prédit le résultat souhaitable aussi bien pour toutes les valeurs d'une caractéristique sensible. En d'autres termes, si le résultat souhaitable pour un modèle est la classe positive, l'objectif serait d'avoir le même taux de vrais positifs pour tous les groupes.

L'égalité des chances est liée à la parité des chances, qui exige que les taux de vrais positifs et les taux de faux positifs soient les mêmes pour tous les groupes.

Supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnags dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins d'élèves sont qualifiés. L'égalité des chances est respectée pour le libellé préféré "admis" par rapport à la nationalité (Lilliputien ou Brobdingnagien) si les élèves qualifiés ont la même probabilité d'être admis, qu'ils soient Lilliputiens ou Brobdingnagiens.

Par exemple, supposons que 100 Lilliputiens et 100 Brobdingnagiens postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :

Tableau 1. Candidats lilliputiens (90 % sont qualifiés)

	Qualifié	Non défini
Admis	45	3
Refusé	45	7
Total	90	10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 7/10 = 70 % Pourcentage total d'étudiants lilliputiens admis : (45+3)/100 = 48 %

Tableau 2. Candidats brobdingnagiens (10 % sont qualifiés) :

	Qualifié	Non défini
Admis	5	9
Refusé	5	81
Total	10	90
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 % Pourcentage d'étudiants non qualifiés refusés : 81/90 = 90 % Pourcentage total d'étudiants brobdingnagiens admis : (5+9)/100 = 14 %

Les exemples précédents satisfont l'égalité des chances pour l'acceptation des élèves qualifiés, car les Lilliputiens et les Brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis.

Bien que l'égalité des chances soit respectée, les deux métriques d'équité suivantes ne le sont pas :

Parité démographique : les Lilliputiens et les Brobdingnagiens sont admis à l'université à des taux différents (48 % des Lilliputiens sont admis, contre seulement 14 % des Brobdingnagiens).
Parité des chances : bien que les étudiants lilliputiens et brobdingnagiens qualifiés aient la même chance d'être admis, la contrainte supplémentaire selon laquelle les lilliputiens et les brobdingnagiens non qualifiés ont la même chance d'être refusés n'est pas respectée. Le taux de refus est de 70 % pour les Lilliputiens non qualifiés et de 90 % pour les Brobdingnagiens non qualifiés.

Pour en savoir plus, consultez Équité : égalité des chances dans le Cours d'initiation au Machine Learning.

Chances égales

#responsible

#Metric

Métrique d'équité permettant d'évaluer si un modèle prédit les résultats aussi bien pour toutes les valeurs d'un attribut sensible par rapport à la classe positive et à la classe négative, et non pas uniquement à l'une ou l'autre. En d'autres termes, le taux de vrais positifs et le taux de faux négatifs doivent être identiques pour tous les groupes.

L'égalité des chances est liée à l'égalité des opportunités, qui ne se concentre que sur les taux d'erreur pour une seule classe (positive ou négative).

Par exemple, supposons que l'université Glubbdubdrib accepte les Lilliputiens et les Brobdingnagiens dans un programme de mathématiques rigoureux. Les établissements secondaires lilliputiens proposent un programme solide de cours de mathématiques, et la grande majorité des élèves sont qualifiés pour le programme universitaire. Les établissements secondaires de Brobdingnag ne proposent pas de cours de mathématiques. Par conséquent, beaucoup moins de leurs élèves sont qualifiés. L'égalité des chances est respectée si, qu'un candidat soit lilliputien ou brobdingnagien, il a la même probabilité d'être admis au programme s'il est qualifié, et la même probabilité d'être refusé s'il ne l'est pas.

Supposons que 100 Lilliputiens et 100 Brobdingnags postulent à l'université de Glubbdubdrib, et que les décisions d'admission sont prises comme suit :

Tableau 3 : Candidats lilliputiens (90 % sont qualifiés)

	Qualifié	Non défini
Admis	45	2
Refusé	45	8
Total	90	10
Pourcentage d'étudiants qualifiés admis : 45/90 = 50 % Pourcentage d'étudiants non qualifiés refusés : 8/10 = 80 % Pourcentage total d'étudiants lilliputiens admis : (45+2)/100 = 47 %

Tableau 4. Candidats brobdingnagiens (10 % sont qualifiés) :

	Qualifié	Non défini
Admis	5	18
Refusé	5	72
Total	10	90
Pourcentage d'étudiants qualifiés admis : 5/10 = 50 % Pourcentage d'étudiants non qualifiés refusés : 72/90 = 80 % Pourcentage total d'étudiants brobdingnagiens admis : (5+18)/100 = 23 %

Les chances égales sont respectées, car les étudiants lilliputiens et brobdingnagiens qualifiés ont tous deux 50 % de chances d'être admis, tandis que les étudiants lilliputiens et brobdingnagiens non qualifiés ont 80 % de chances d'être refusés.

La parité des chances est formellement définie dans "Equality of Opportunity in Supervised Learning" comme suit : "Le prédicteur Ŷ satisfait à la parité des chances par rapport à l'attribut protégé A et au résultat Y si Ŷ et A sont indépendants, conditionnellement à Y."

effet expérimentateur

#responsible

Voir biais de confirmation.

F

contrainte d'équité

#responsible

Appliquer une contrainte à un algorithme pour s'assurer qu'une ou plusieurs définitions de l'équité sont respectées. Voici quelques exemples de contraintes d'équité :

Post-traitez la sortie de votre modèle.
Modifier la fonction de perte pour intégrer une pénalité en cas de non-respect d'une métrique d'équité.
Ajouter directement une contrainte mathématique à un problème d'optimisation.

métrique d'équité

#responsible

#Metric

Définition mathématique de l'équité qui est mesurable. Voici quelques métriques d'équité couramment utilisées :

Parité des chances
parité prédictive
Équité contrefactuelle
Parité démographique

De nombreuses métriques d'équité s'excluent mutuellement. Pour en savoir plus, consultez Incompatibilité des métriques d'équité.

G

biais de représentativité

#responsible

Fait de supposer que ce qui s'applique à un individu s'applique également à tous les membres du groupe auquel cet individu appartient. Les effets du biais de représentativité peuvent être exacerbés si un échantillonnage de commodité est utilisé pour la collecte de données. Dans un échantillon non représentatif, il est possible de faire des attributions qui ne reflètent pas la réalité.

Voir aussi biais d'homogénéité de l'exogroupe et biais d'appartenance. Pour en savoir plus, consultez également Équité : types de biais dans le cours d'initiation au machine learning.

H

biais historique

#responsible

Type de biais qui existe déjà dans le monde et qui s'est retrouvé dans un ensemble de données. Ces biais ont tendance à refléter les stéréotypes culturels, les inégalités démographiques et les préjugés existants à l'égard de certains groupes sociaux.

Prenons l'exemple d'un modèle de classification qui prédit si un demandeur de prêt manquera ou non à ses obligations de remboursement. Ce modèle a été entraîné sur des données historiques de défaut de paiement de prêts datant des années 1980, provenant de banques locales de deux communautés différentes. Si les anciens demandeurs de la communauté A étaient six fois plus susceptibles de ne pas rembourser leurs prêts que ceux de la communauté B, le modèle pourrait apprendre un biais historique, ce qui le rendrait moins susceptible d'approuver les prêts dans la communauté A, même si les conditions historiques qui ont entraîné des taux de défaut plus élevés dans cette communauté n'étaient plus pertinentes.

Pour en savoir plus, consultez Équité : types de biais dans le cours d'initiation au machine learning.

I

biais implicite

#responsible

Fait de faire automatiquement une association ou une hypothèse sur la base de ses propres modèles mentaux et souvenirs. Le biais implicite peut avoir une incidence sur les points suivants :

Manière dont les données sont collectées et classées.
Manière dont les systèmes de machine learning sont conçus et développés.

Par exemple, lors de la création d'un modèle de classification pour identifier des photos de mariage, un ingénieur peut utiliser comme caractéristique une robe blanche trouvée sur une photo. Cependant, les robes blanches ne sont d'usage que dans certaines cultures et, de surcroît, seulement à certaines époques.

Voir aussi biais de confirmation.

incompatibilité des métriques d'équité

#responsible

#Metric

L'idée que certaines notions d'équité sont mutuellement incompatibles et ne peuvent pas être satisfaites simultanément. Par conséquent, il n'existe pas de métrique universelle unique pour quantifier l'équité qui puisse être appliquée à tous les problèmes de ML.

Bien que cela puisse sembler décourageant, l'incompatibilité des métriques d'équité n'implique pas que les efforts d'équité sont vains. Au lieu de cela, il suggère que l'équité doit être définie selon un contexte et un problème de ML donnés, dans le but d'éviter les préjudices spécifiques à ses cas d'utilisation.

Pour en savoir plus sur l'incompatibilité des métriques d'équité, consultez On the (im)possibility of fairness.

équité individuelle

#responsible

#Metric

Métrique d'équité qui vérifie si des individus semblables sont classés de manière similaire. Par exemple, l'Académie Brobdingnagian peut souhaiter satisfaire l'équité individuelle en s'assurant que deux élèves ayant obtenu des notes et des résultats de tests standardisés identiques ont la même probabilité d'être admis.

Notez que l'équité individuelle repose entièrement sur la façon dont vous définissez la "similarité" (dans ce cas, les notes et les résultats des tests). Vous risquez d'introduire de nouveaux problèmes d'équité si votre métrique de similarité manque des informations importantes (comme la rigueur du programme scolaire d'un élève).

Pour en savoir plus sur l'équité individuelle, consultez Fairness Through Awareness.

biais d'appartenance

#responsible

Faire preuve de partialité envers son propre groupe ou ses propres traits caractéristiques. Si les testeurs ou les évaluateurs sont composés d'amis, de membres de la famille ou de collègues du développeur en machine learning, alors le biais d'appartenance peut invalider le test du produit ou l'ensemble de données.

Le biais d'appartenance est une forme de biais de représentativité. Voir aussi biais d'homogénéité de l'exogroupe.

Pour en savoir plus, consultez Équité : types de biais dans le cours d'initiation au machine learning.

N

biais de non-réponse

#responsible

Voir biais de sélection.

O

biais d'homogénéité de l'exogroupe

#responsible

Tendance à percevoir les membres d'un exogroupe comme plus semblables que les membres de son groupe d'appartenance lorsque l'on compare les attitudes, les valeurs, les traits de personnalité et d'autres caractéristiques. Le groupe d'appartenance désigne les personnes avec lesquelles vous interagissez régulièrement, tandis que l'exogroupe désigne les personnes avec lesquelles vous n'interagissez pas régulièrement. Si vous créez un ensemble de données en demandant à des personnes de fournir des attributs relatifs à des exogroupes, ces attributs seront probablement moins nuancés et plus stéréotypés que les attributs mis en avant quant au groupe d'appartenance des participants.

Par exemple, des Lilliputiens pourraient décrire de manière très détaillée les maisons d'autres Lilliputiens, en mentionnant de légères différences dans les styles architecturaux, les fenêtres, les portes et les dimensions. Cependant, les mêmes Lilliputiens pourraient simplement affirmer que les Brobdingnagiens habitent tous dans des maisons identiques.

Le biais d'homogénéité de l'exogroupe est une forme de biais de représentativité.

Voir aussi biais d'appartenance.

P

biais de participation

#responsible

Synonyme de biais de non-réponse. Voir biais de sélection.

post-traitement

#responsible

#fundamentals

Ajuster la sortie d'un modèle après son exécution. Le post-traitement peut être utilisé pour appliquer des contraintes d'équité sans modifier les modèles eux-mêmes.

Par exemple, il est possible d'appliquer un post-traitement à un modèle de classification binaire en définissant un seuil de classification de sorte que l'égalité des chances soit maintenue pour un attribut donné en vérifiant que le taux de vrais positifs est le même pour toutes les valeurs de cet attribut.

parité prédictive

#responsible

#Metric

Une métrique d'équité qui vérifie si, pour un modèle de classification donné, les taux de précision sont équivalents pour les sous-groupes considérés.

Par exemple, un modèle qui prédit l'acceptation dans une université respecterait la parité prédictive pour la nationalité si son taux de précision était le même pour les Lilliputiens et les Brobdingnags.

La parité prédictive est parfois appelée parité du taux de prédiction.

Pour en savoir plus sur la parité prédictive, consultez la section 3.2.1 de l'article Explication des définitions d'équité.

parité des taux prédictive

#responsible

#Metric

Autre nom pour la parité prédictive.

prétraitement

#responsible

Traitement des données avant leur utilisation pour entraîner un modèle. Le prétraitement peut être aussi simple que la suppression de mots d'un corpus de texte anglais qui ne figurent pas dans le dictionnaire anglais, ou aussi complexe que la réexpression des points de données de manière à éliminer autant d'attributs corrélés aux attributs sensibles que possible. Le prétraitement peut aider à respecter les contraintes d'équité.

Proxy (attributs sensibles)

#responsible

Attribut utilisé comme substitut d'un attribut sensible. Par exemple, le code postal d'une personne peut être utilisé comme indicateur de son revenu, de son origine ou de son appartenance ethnique.

R

biais de fréquence

#responsible

Fait que le rythme auquel les personnes écrivent à propos d'actions, de résultats ou de propriétés ne reflète pas leur rythme dans le monde réel ou le degré selon lequel une propriété est caractéristique d'une classe d'individus. Le biais de fréquence peut influer sur la composition des données à partir desquelles les systèmes de machine learning apprennent.

Par exemple, dans les livres, le mot ri est plus répandu que respiré. Un modèle de ML conçu pour estimer à partir d'un corpus de livres la fréquence relative du fait de rire et du fait de respirer déterminerait probablement que le premier est plus courant que le second.

Pour en savoir plus, consultez Équité : types de biais dans le cours d'initiation au machine learning.

S

biais d'échantillonnage

#responsible

Voir biais de sélection.

biais de sélection

#responsible

Erreurs dans les conclusions tirées des échantillons de données en raison d'un processus de sélection générant des différences systématiques entre les échantillons observés dans les données et ceux non observés. Le biais de sélection existe sous les formes suivantes :

Biais de couverture : la population représentée dans l'ensemble de données ne correspond pas à celle sur laquelle le modèle de machine learning fait des prédictions.
biais d'échantillonnage : les données ne sont pas collectées aléatoirement auprès du groupe cible.
Biais de non-réponse (également appelé biais de participation) : les utilisateurs de certains groupes refusent de participer à certaines enquêtes à des taux différents des utilisateurs d'autres groupes.

Supposons que vous créez un modèle de machine learning qui prédit le succès d'un film. Pour collecter les données d'entraînement, vous distribuez une enquête à toutes les personnes situées au premier rang d'une salle de cinéma projetant le film. Même si de prime abord cette approche peut sembler être un bon moyen de recueillir un ensemble de données, elle peut introduire les formes de biais de sélection suivantes :

Biais de couverture : en échantillonnant à partir d'une population qui a choisi de voir le film, les prédictions de votre modèle peuvent mal se généraliser à des personnes qui n'ont pas manifesté un tel intérêt pour le film.
Biais d'échantillonnage : plutôt que d'échantillonner aléatoirement la population visée (toutes les personnes dans la salle), vous n'avez échantillonné que les personnes du premier rang. Il est possible que les personnes du premier rang soient plus intéressées par le film que celles des autres rangs.
Biais de non-réponse : en général, les personnes qui ont des opinions fortes ont tendance à répondre plus souvent aux enquêtes facultatives que les personnes qui ont des opinions modérées. Comme l'enquête sur le film est facultative, il est plus probable que les réponses forment une distribution bimodale plutôt qu'une distribution normale (en cloche).

attribut sensible

#responsible

Attribut humain auquel une attention particulière peut être accordée pour des motifs juridiques, éthiques, sociaux ou personnels.

U

Inconscience (d'un attribut sensible)

#responsible

Situation dans laquelle des attributs sensibles sont présents, mais ne sont pas inclus dans les données d'entraînement. Étant donné que les attributs sensibles sont souvent corrélés à d'autres attributs des données, un modèle entraîné sans tenir compte d'un attribut sensible peut toujours avoir un impact disparate par rapport à cet attribut ou enfreindre d'autres contraintes d'équité.

Glossaire du machine learning: IA responsable Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

A

attribut

biais d'automatisation

B

biais (éthique/équité) (bias (ethics/fairness))

C

biais de confirmation

équité contrefactuelle

biais de couverture

D

parité démographique

Impact disparate

traitement inégalitaire

E

l'égalité des chances.

Chances égales

effet expérimentateur

F

contrainte d'équité

métrique d'équité

G

biais de représentativité

H

biais historique

I

biais implicite

incompatibilité des métriques d'équité

équité individuelle

biais d'appartenance

N

biais de non-réponse

O

biais d'homogénéité de l'exogroupe

P

biais de participation

post-traitement

parité prédictive

parité des taux prédictive

prétraitement

Proxy (attributs sensibles)

R

biais de fréquence

S

biais d'échantillonnage

biais de sélection

attribut sensible

U

Inconscience (d'un attribut sensible)

Glossaire du machine learning: IA responsable