Cette page a été traduite par l'API Cloud Translation.

Équité: types de biais

Les modèles de machine learning (ML) ne sont pas objectifs par nature. Les professionnels du ML entraînent des modèles en leur fournissant un ensemble de données d'exemples d'entraînement. L'implication humaine dans la fourniture et la curation de ces données peut rendre les prédictions d'un modèle sujettes à des biais.

Lors de la création de modèles, il est important de connaître les biais humains courants qui peuvent dans vos données. Vous pouvez ainsi prendre des mesures proactives pour atténuer les effets les effets.

Biais de fréquence

Définition

Le biais de fréquence se produit lorsque la fréquence des événements, des propriétés et/ou des résultats enregistrés dans un ensemble de données reflètent avec précision leur fréquence réelle. Ce biais peut venir du fait que les gens ont tendance à se concentrer sur des circonstances inhabituelles ou particulièrement mémorables, en supposant que l'ordinaire n'a pas besoin d'être enregistré.

Cliquez sur . chevron_right pour obtenir un exemple.
Exemple

Un modèle d'analyse des sentiments est entraîné pour prédire si des les avis positifs ou négatifs d'après un corpus d'utilisateurs des soumissions sur un site Web populaire. La majorité des avis de l'ensemble de données d'entraînement reflètent des opinions extrêmes (les auteurs des avis ont adoré ou détesté un livre), car les utilisateurs étaient moins susceptibles d'envoyer un avis sur un livre s'ils n'y avaient pas répondu de manière forte. En tant que le modèle est moins à même de prédire correctement le sentiment des critiques qui utilisent un langage plus subtil pour décrire un livre.

Cliquez sur chevron_gauche pour afficher la définition.

Biais historique

Définition

Un biais historique se produit lorsque des données historiques reflète les inégalités qui existaient dans le monde à l’époque.

Cliquez sur . chevron_right pour afficher un exemple
Exemple

Un ensemble de données sur le logement d'une ville des années 1960 contient des données sur les prix des maisons qui reflètent les pratiques discriminatoires en matière de prêts en vigueur au cours de cette décennie.

Cliquez sur . chevron_left pour la définition.

Biais d'automatisation

Définition

Le biais d'automatisation désigne la propension à favoriser les résultats générés par les systèmes automatisés par rapport à ceux générés par des systèmes, quel que soit leur taux d'erreur.

Cliquez sur chevron_right pour voir un exemple.
Exemple

les professionnels du ML travaillant pour un fabricant de pignons étaient impatients de pour déployer le nouveau modèle qu'il a entraîné pour identifier dents défectueuses jusqu'à ce que le superviseur de l'usine ait signalé que les taux de précision et de rappel du modèle étaient tous deux inférieurs de 15 % des inspecteurs humains.

Cliquez sur . chevron_left pour la définition.

Biais de sélection

Le biais de sélection survient lorsque la façon dont les exemples d'un ensemble de données sont choisis ne correspond pas à leur distribution réelle. Le préjugé de sélection peut prendre de nombreuses formes différentes, notamment le biais de couverture, le préjugé de non-réponse et le préjugé d'échantillonnage.

Biais de couverture

Définition

Le biais de couverture survient si les données ne sont pas sélectionnées de façon représentative.

Cliquez sur . chevron_right pour afficher un exemple
Exemple

Un modèle est entraîné pour prédire les futures ventes d'un nouveau produit d'enquêtes téléphoniques menées auprès d'un échantillon de consommateurs ayant acheté le produit. Les consommateurs qui ont choisi d'acheter un produit concurrent n'ont pas été interrogés. Par conséquent, ce groupe de personnes n'était pas représenté dans les données d'entraînement.

Cliquez sur . chevron_left pour la définition.

Biais de non-réponse

Définition

Biais de non-réponse (également appelé biais de participation) se produit si les données finissent par être non représentatif en raison des écarts de participation à la collecte de données processus.

Cliquez sur . chevron_right pour afficher un exemple
Exemple

Un modèle est entraîné pour prédire les futures ventes d'un nouveau produit en fonction d'enquêtes téléphoniques menées auprès d'un échantillon de consommateurs ayant acheté le produit et d'un échantillon de consommateurs ayant acheté un produit concurrent. Le nombre de consommateurs ayant acheté le produit concurrent était 80% plus élevé susceptibles de refuser de répondre à l’enquête et que leurs données étaient sous-représentés dans l'échantillon.

Cliquez sur . chevron_left pour la définition.

Biais d'échantillonnage

Définition

Un biais d'échantillonnage se produit si la randomisation adéquate ne sont pas utilisées lors de la collecte des données.

Cliquez sur . chevron_right pour afficher un exemple
Exemple

Un modèle est entraîné pour prédire les futures ventes d'un nouveau produit d'enquêtes téléphoniques menées auprès d'un échantillon de consommateurs ayant acheté le produit et auprès d'un échantillon de consommateurs ayant acheté produit. Au lieu de cibler aléatoirement les consommateurs, a choisi les 200 premiers clients à avoir répondu à un e-mail, qui pourrait se sont montrés plus enthousiastes que la moyenne dans le produit auprès d'acheteurs potentiels.

Cliquez sur chevron_gauche pour afficher la définition.

Biais de représentativité

Le biais de représentativité désigne la propension à généraliser ce qui est vrai pour certaines personnes à l'ensemble du groupe auquel elles appartiennent. Le biais de représentativité se manifeste souvent dans les formulaires.

Biais d'appartenance

Définition

Le biais d'appartenance est une préférence pour les membres de votre propre groupe auquel vous appartenez également ou pour des caractéristiques que vous partagez.

Cliquez sur chevron_right pour voir un exemple.
Exemple

Deux professionnels du ML entraînant un modèle de sélection de CV les développeurs de logiciels sont prédisposés à croire que les candidats qui ont fréquenté la même école informatique qu'eux-mêmes sont plus qualifiés pour le poste.

Cliquez sur . chevron_left pour la définition.

Biais d’homogénéité de l’exogroupe

Définition

Le biais d'homogénéité de l'exogroupe désigne la tendance à stéréotyper les membres d'un groupe différent du sien, ou à juger que leurs caractéristiques sont plus uniformes.

Cliquez sur chevron_right pour voir un exemple.
Exemple

Deux professionnels du ML entraînant un modèle de sélection de CV les développeurs de logiciels sont prédisposés à croire que tous les candidats qui n'ont pas fréquenté une école d'informatique n'ont pas d’expertise suffisante pour le poste.

Cliquez sur . chevron_left pour la définition.

Biais implicite

Définition

Un biais implicite se produit lorsque des hypothèses sont faites à partir de son propre modèle de pensée et d'expériences personnelles qui ne s'appliquent pas nécessairement de façon plus générale.

Cliquez sur . chevron_right pour afficher un exemple
Exemple

Un professionnel du ML qui entraîne un modèle de reconnaissance de gestes utilise un hochement de tête comme caractéristique pour indiquer qu'une personne communique le mot "non". Cependant, dans certaines régions du monde, on peut secouer la tête signifie « oui ».

Cliquez sur chevron_gauche pour afficher la définition.

Biais de confirmation

Définition

Le biais de confirmation survient lorsque les créateurs de modèles traiter inconsciemment des données de manière à confirmer des croyances préexistantes ; et hypothèses.

Cliquez sur chevron_right pour voir un exemple.
Exemple

Un professionnel du ML crée un modèle qui prédit l'agressivité des chiens en fonction de diverses caractéristiques (taille, poids, race, environnement). Il a vécu une expérience désagréable avec un caniche nain hyperactif lorsqu'il était enfant et associe depuis lors cette race à l'agressivité. Lors de la sélection des données d'entraînement du modèle, le professionnel a inconsciemment écarté les caractéristiques qui attestaient de la docilité des chiens de petite taille.

Cliquez sur chevron_gauche pour afficher la définition.

Préjugé de l'expérimentateur

Définition

Le biais de l'expérimentateur survient lorsqu'un créateur de modèle continue d'entraîner le modèle jusqu'à ce qu'il obtienne un résultat conforme son hypothèse initiale.

Cliquez sur chevron_right pour voir un exemple.
Exemple

Un professionnel du ML crée un modèle qui prédit l'agressivité des chiens en fonction de diverses caractéristiques (taille, poids, race, environnement). Il a vécu une expérience désagréable avec un caniche nain hyperactif lorsqu'il était enfant et associe depuis lors cette race à l'agressivité. Lorsque le modèle entraîné a prédit les caniches nains soient relativement dociles, le praticien a suivi le modèle plusieurs fois jusqu'à ce qu'il produise un résultat des caniches plus petits pour qu'ils soient plus violents.

Cliquez sur chevron_gauche pour afficher la définition.

Exercice : Vérifiez votre compréhension

Lesquels des types de préjugés suivants auraient pu contribuer aux prédictions biaisées du modèle d'admission à l'université décrit po l'introduction ?

Biais historique

Le modèle d'admission a été entraîné sur les dossiers des élèves 20 ans. Si les étudiants issus de minorités étaient sous-représentés dans ces données, le modèle aurait pu reproduire les mêmes inégalités historiques lorsque vous faites des prédictions sur les données des nouveaux élèves.

Biais d'appartenance

Le modèle d'admission a été entraîné par des étudiants universitaires actuels, qui auraient pu avoir une préférence inconsciente pour admettre des étudiants issus d'un milieu semblable au leur, ce qui aurait pu avoir une incidence sur la façon dont ils ont sélectionné ou créé des caractéristiques pour les données sur lesquelles le modèle a été entraîné.

Biais de confirmation

Le modèle d'admission a été entraîné par des étudiants universitaires actuels, qui avaient probablement des croyances préexistantes sur les types de qualifications qui sont corrélés au succès dans le programme d'informatique. Ils pourraient ont sélectionné ou manipulé les données par mégarde, afin que le modèle a affirmé ces croyances existantes.

Biais d'automatisation

Le biais d'automatisation peut expliquer pourquoi le comité des admissions a choisi d'utiliser un modèle de ML pour prendre des décisions concernant les admissions ; ils ont peut-être pensaient qu'un système automatisé produirait de meilleurs résultats qu'avec décisions prises par des humains. Cependant, le biais d'automatisation ne fournit aucun insight sur la raison pour laquelle les prédictions du modèle ont fini par être biaisées.

Introduction (5 min)

Identifier les biais (10 min)

Équité: types de biais

Biais de fréquence

Définition

Exemple

Biais historique

Définition

Exemple

Biais d'automatisation

Définition

Exemple

Biais de sélection

Biais de couverture

Définition

Exemple

Biais de non-réponse

Définition

Exemple

Biais d'échantillonnage

Définition

Exemple

Biais de représentativité

Biais d'appartenance

Définition

Exemple

Biais d’homogénéité de l’exogroupe

Définition

Exemple

Biais implicite

Définition

Exemple

Biais de confirmation

Définition

Exemple

Préjugé de l'expérimentateur

Définition

Exemple

Exercice : Vérifiez votre compréhension