Les modèles de machine learning (ML) ne sont pas objectifs par nature. Les professionnels du ML entraînent des modèles en leur fournissant un ensemble de données d'exemples d'entraînement. L'implication humaine dans la fourniture et la curation de ces données peut rendre les prédictions d'un modèle sujettes à des biais.
Lors de la création de modèles, il est important de connaître les biais humains courants qui peuvent dans vos données. Vous pouvez ainsi prendre des mesures proactives pour atténuer les effets les effets.
Biais de fréquence
-
Définition
Le biais de fréquence se produit lorsque la fréquence des événements, des propriétés et/ou des résultats enregistrés dans un ensemble de données reflètent avec précision leur fréquence réelle. Ce biais peut venir du fait que les gens ont tendance à se concentrer sur des circonstances inhabituelles ou particulièrement mémorables, en supposant que l'ordinaire n'a pas besoin d'être enregistré.
-
Exemple
Un modèle d'analyse des sentiments est entraîné pour prédire si des les avis positifs ou négatifs d'après un corpus d'utilisateurs des soumissions sur un site Web populaire. La majorité des avis de l'ensemble de données d'entraînement reflètent des opinions extrêmes (les auteurs des avis ont adoré ou détesté un livre), car les utilisateurs étaient moins susceptibles d'envoyer un avis sur un livre s'ils n'y avaient pas répondu de manière forte. En tant que le modèle est moins à même de prédire correctement le sentiment des critiques qui utilisent un langage plus subtil pour décrire un livre.
Cliquez sur chevron_gauche pour afficher la définition.
Biais historique
-
Définition
Un biais historique se produit lorsque des données historiques reflète les inégalités qui existaient dans le monde à l’époque.
-
Exemple
Un ensemble de données sur le logement d'une ville des années 1960 contient des données sur les prix des maisons qui reflètent les pratiques discriminatoires en matière de prêts en vigueur au cours de cette décennie.
Cliquez sur . chevron_left pour la définition.
Biais d'automatisation
-
Définition
Le biais d'automatisation désigne la propension à favoriser les résultats générés par les systèmes automatisés par rapport à ceux générés par des systèmes, quel que soit leur taux d'erreur.
-
Exemple
les professionnels du ML travaillant pour un fabricant de pignons étaient impatients de pour déployer le nouveau modèle qu'il a entraîné pour identifier dents défectueuses jusqu'à ce que le superviseur de l'usine ait signalé que les taux de précision et de rappel du modèle étaient tous deux inférieurs de 15 % des inspecteurs humains.
Cliquez sur . chevron_left pour la définition.
Biais de sélection
Le biais de sélection survient lorsque la façon dont les exemples d'un ensemble de données sont choisis ne correspond pas à leur distribution réelle. Le préjugé de sélection peut prendre de nombreuses formes différentes, notamment le biais de couverture, le préjugé de non-réponse et le préjugé d'échantillonnage.
Biais de couverture
-
Définition
Le biais de couverture survient si les données ne sont pas sélectionnées de façon représentative.
-
Exemple
Un modèle est entraîné pour prédire les futures ventes d'un nouveau produit d'enquêtes téléphoniques menées auprès d'un échantillon de consommateurs ayant acheté le produit. Les consommateurs qui ont choisi d'acheter un produit concurrent n'ont pas été interrogés. Par conséquent, ce groupe de personnes n'était pas représenté dans les données d'entraînement.
Cliquez sur . chevron_left pour la définition.
Biais de non-réponse
-
Définition
Biais de non-réponse (également appelé biais de participation) se produit si les données finissent par être non représentatif en raison des écarts de participation à la collecte de données processus.
-
Exemple
Un modèle est entraîné pour prédire les futures ventes d'un nouveau produit en fonction d'enquêtes téléphoniques menées auprès d'un échantillon de consommateurs ayant acheté le produit et d'un échantillon de consommateurs ayant acheté un produit concurrent. Le nombre de consommateurs ayant acheté le produit concurrent était 80% plus élevé susceptibles de refuser de répondre à l’enquête et que leurs données étaient sous-représentés dans l'échantillon.
Cliquez sur . chevron_left pour la définition.
Biais d'échantillonnage
-
Définition
Un biais d'échantillonnage se produit si la randomisation adéquate ne sont pas utilisées lors de la collecte des données.
-
Exemple
Un modèle est entraîné pour prédire les futures ventes d'un nouveau produit d'enquêtes téléphoniques menées auprès d'un échantillon de consommateurs ayant acheté le produit et auprès d'un échantillon de consommateurs ayant acheté produit. Au lieu de cibler aléatoirement les consommateurs, a choisi les 200 premiers clients à avoir répondu à un e-mail, qui pourrait se sont montrés plus enthousiastes que la moyenne dans le produit auprès d'acheteurs potentiels.
Cliquez sur chevron_gauche pour afficher la définition.
Biais de représentativité
Le biais de représentativité désigne la propension à généraliser ce qui est vrai pour certaines personnes à l'ensemble du groupe auquel elles appartiennent. Le biais de représentativité se manifeste souvent dans les formulaires.
Biais d'appartenance
-
Définition
Le biais d'appartenance est une préférence pour les membres de votre propre groupe auquel vous appartenez également ou pour des caractéristiques que vous partagez.
-
Exemple
Deux professionnels du ML entraînant un modèle de sélection de CV les développeurs de logiciels sont prédisposés à croire que les candidats qui ont fréquenté la même école informatique qu'eux-mêmes sont plus qualifiés pour le poste.
Cliquez sur . chevron_left pour la définition.
Biais d’homogénéité de l’exogroupe
-
Définition
Le biais d'homogénéité de l'exogroupe désigne la tendance à stéréotyper les membres d'un groupe différent du sien, ou à juger que leurs caractéristiques sont plus uniformes.
-
Exemple
Deux professionnels du ML entraînant un modèle de sélection de CV les développeurs de logiciels sont prédisposés à croire que tous les candidats qui n'ont pas fréquenté une école d'informatique n'ont pas d’expertise suffisante pour le poste.
Cliquez sur . chevron_left pour la définition.
Biais implicite
-
Définition
Un biais implicite se produit lorsque des hypothèses sont faites à partir de son propre modèle de pensée et d'expériences personnelles qui ne s'appliquent pas nécessairement de façon plus générale.
-
Exemple
Un professionnel du ML qui entraîne un modèle de reconnaissance de gestes utilise un hochement de tête comme caractéristique pour indiquer qu'une personne communique le mot "non". Cependant, dans certaines régions du monde, on peut secouer la tête signifie « oui ».
Cliquez sur chevron_gauche pour afficher la définition.
Biais de confirmation
-
Définition
Le biais de confirmation survient lorsque les créateurs de modèles traiter inconsciemment des données de manière à confirmer des croyances préexistantes ; et hypothèses.
-
Exemple
Un professionnel du ML crée un modèle qui prédit l'agressivité des chiens en fonction de diverses caractéristiques (taille, poids, race, environnement). Il a vécu une expérience désagréable avec un caniche nain hyperactif lorsqu'il était enfant et associe depuis lors cette race à l'agressivité. Lors de la sélection des données d'entraînement du modèle, le professionnel a inconsciemment écarté les caractéristiques qui attestaient de la docilité des chiens de petite taille.
Cliquez sur chevron_gauche pour afficher la définition.
Préjugé de l'expérimentateur
-
Définition
Le biais de l'expérimentateur survient lorsqu'un créateur de modèle continue d'entraîner le modèle jusqu'à ce qu'il obtienne un résultat conforme son hypothèse initiale.
-
Exemple
Un professionnel du ML crée un modèle qui prédit l'agressivité des chiens en fonction de diverses caractéristiques (taille, poids, race, environnement). Il a vécu une expérience désagréable avec un caniche nain hyperactif lorsqu'il était enfant et associe depuis lors cette race à l'agressivité. Lorsque le modèle entraîné a prédit les caniches nains soient relativement dociles, le praticien a suivi le modèle plusieurs fois jusqu'à ce qu'il produise un résultat des caniches plus petits pour qu'ils soient plus violents.
Cliquez sur chevron_gauche pour afficher la définition.