Équité: types de biais

Les modèles de machine learning (ML) ne sont pas objectifs par nature. Les professionnels du ML entraînent des modèles en leur fournissant un ensemble de données d'exemples d'entraînement. L'implication humaine dans la fourniture et la curation de ces données peut rendre les prédictions d'un modèle sujettes à des biais.

Lors de la création de modèles, il est important de connaître les biais humains courants qui peuvent dans vos données. Vous pouvez ainsi prendre des mesures proactives pour atténuer les effets les effets.

Biais de fréquence

Biais historique

Biais d'automatisation

Biais de sélection

Le biais de sélection survient lorsque la façon dont les exemples d'un ensemble de données sont choisis ne correspond pas à leur distribution réelle. Le préjugé de sélection peut prendre de nombreuses formes différentes, notamment le biais de couverture, le préjugé de non-réponse et le préjugé d'échantillonnage.

Biais de couverture

Biais de non-réponse

Biais d'échantillonnage

Biais de représentativité

Le biais de représentativité désigne la propension à généraliser ce qui est vrai pour certaines personnes à l'ensemble du groupe auquel elles appartiennent. Le biais de représentativité se manifeste souvent dans les formulaires.

Biais d'appartenance

Biais d’homogénéité de l’exogroupe

Biais implicite

Biais de confirmation

Préjugé de l'expérimentateur

Exercice : Vérifiez votre compréhension

Lesquels des types de préjugés suivants auraient pu contribuer aux prédictions biaisées du modèle d'admission à l'université décrit po l'introduction ?
Biais historique
Le modèle d'admission a été entraîné sur les dossiers des élèves 20 ans. Si les étudiants issus de minorités étaient sous-représentés dans ces données, le modèle aurait pu reproduire les mêmes inégalités historiques lorsque vous faites des prédictions sur les données des nouveaux élèves.
Biais d'appartenance
Le modèle d'admission a été entraîné par des étudiants universitaires actuels, qui auraient pu avoir une préférence inconsciente pour admettre des étudiants issus d'un milieu semblable au leur, ce qui aurait pu avoir une incidence sur la façon dont ils ont sélectionné ou créé des caractéristiques pour les données sur lesquelles le modèle a été entraîné.
Biais de confirmation
Le modèle d'admission a été entraîné par des étudiants universitaires actuels, qui avaient probablement des croyances préexistantes sur les types de qualifications qui sont corrélés au succès dans le programme d'informatique. Ils pourraient ont sélectionné ou manipulé les données par mégarde, afin que le modèle a affirmé ces croyances existantes.
Biais d'automatisation
Le biais d'automatisation peut expliquer pourquoi le comité des admissions a choisi d'utiliser un modèle de ML pour prendre des décisions concernant les admissions ; ils ont peut-être pensaient qu'un système automatisé produirait de meilleurs résultats qu'avec décisions prises par des humains. Cependant, le biais d'automatisation ne fournit aucun insight sur la raison pour laquelle les prédictions du modèle ont fini par être biaisées.