Lorsque vous préparez vos données pour l'entraînement et l'évaluation du modèle, il est important de garder à l'esprit les questions d'équité et de rechercher des sources potentielles de biais afin de pouvoir atténuer de manière proactive leurs effets avant de mettre votre modèle en production.
Où les biais pourraient-ils se cacher ? Voici quelques signaux d'alerte à surveiller dans votre ensemble de données.
Valeurs de caractéristiques manquantes
Si votre ensemble de données comporte une ou plusieurs caractéristiques dont les valeurs sont manquantes pour un grand nombre d'exemples, cela peut indiquer que certaines caractéristiques clés de votre ensemble de données sont sous-représentées.
Exercice : Vérifiez votre compréhension
Vous constatez que 1 500 exemples sur les 5 000 de l'ensemble d'entraînement ne comportent pas de valeurs de tempérament. Parmi les propositions suivantes, lesquelles sont des sources potentielles de biais que vous devez examiner ?
Valeurs de caractéristiques inattendues
Lorsque vous explorez des données, vous devez également rechercher des exemples qui contiennent des valeurs de caractéristique qui se démarquent comme particulièrement inhabituelles ou inhabituelles. Ces valeurs de fonctionnalité inattendues peuvent indiquer des problèmes survenus lors de la collecte des données ou d'autres inexactitudes pouvant entraîner des biais.
Exercice : Vérifiez votre compréhension
Examinez l'ensemble hypothétique suivant d'exemples pour l'entraînement d'un modèle d'adoption pour chien de secours.
race | âge (années) | poids (livres) | caractère | shedding_level |
---|---|---|---|---|
caniche toy | 2 | 12 | excitable | bas |
Golden retriever | 7 | 65 | calme | high |
Labrador retriever | 35 | 73 | calme | high |
bouledogue français | 0,5 | 11 | calme | moyen |
race mélangée inconnue | 4 | 45 | excitable | high |
basset | 9 | 48 | calme | moyen |
race | âge (années) | poids (livres) | caractère | shedding_level |
---|---|---|---|---|
caniche toy | 2 | 12 | excitable | bas |
Golden retriever | 7 | 65 | calme | high |
Labrador retriever | 35 | 73 | calme | high |
bouledogue français | 0,5 | 11 | calme | moyen |
race mélangée inconnue | 4 | 45 | excitable | high |
basset | 9 | 48 | calme | moyen |
Bluey, un Australian Cattle Dog qui a vécu 29 ans et 5 mois, est le chien le plus âgé dont l'âge a été validé par le Guinness World Records. Compte tenu de cela, il semble peu probable que le labrador ait 35 ans.Il est plus probable que l'âge du chien ait été calculé ou enregistré de manière inexacte (peut-être qu'il a en réalité 3,5 ans). Cette erreur peut également indiquer des problèmes de précision plus généraux concernant les données d'âge de l'ensemble de données, qui méritent un examen plus approfondi.
Décalage de données
Toute forme d'asymétrie dans vos données, c'est-à-dire certains groupes ou caractéristiques sous-représentés ou surreprésentés par rapport à leur prévalence réelle, peut introduire un biais dans votre modèle.
Lors de l'audit des performances d'un modèle, il est important non seulement d'examiner les résultats agrégés, mais aussi de les ventiler par sous-groupe. Par exemple, dans le cas de notre modèle d'adoptabilité des chiens de refuge, pour garantir l'impartialité, il ne suffit pas de se concentrer sur la justesse globale. Nous devons également auditer les performances par sous-groupe pour nous assurer que le modèle fonctionne de manière égale pour chaque race de chien, chaque groupe d'âge et chaque groupe de taille.
Plus loin dans ce module, dans la section Évaluer les biais, nous examinerons de plus près les différentes méthodes d'évaluation des modèles par sous-groupe.