Lorsque vous explorez vos données pour déterminer la meilleure façon de les représenter dans votre modèle, il est important de garder à l'esprit les problèmes d'équité et de vérifier de manière proactive les sources de biais potentielles.
Où pourrait tendre le biais ? Voici trois signaux à surveiller dans votre ensemble de données.
Valeurs de caractéristiques manquantes
Si votre ensemble de données comporte une ou plusieurs caractéristiques dont les valeurs sont manquantes pour un grand nombre d'exemples, cela peut indiquer que certaines caractéristiques clés sont sous-représentées.
Par exemple, le tableau ci-dessous présente un résumé des statistiques clés d'un sous-ensemble de caractéristiques de l'ensemble de données sur l'immobilier en Californie, stockées dans un DataFrame
pandas et générées via DataFrame.describe
. Notez que toutes les caractéristiques ont une valeur count
de 17 000, ce qui indique qu'il ne manque aucune valeur:
longitude | latitude | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
count | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 | 17 000,0 |
mean | -119,6 | 35,6 | 2643,7 | 1429,6 | 501,2 | 3.9 | 207,3 |
std | 2,0 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
min | -124,3 | 32,5 | 2,0 | 3,0 | 1,0 | 0.5 | 15,0 |
25 % | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50 % | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3.5 | 180,4 |
75 % | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4.8 | 265,0 |
max | -114,3 | 42,0 | 37937,0 | 35682,0 | 6082,0 | 15,0 | 500,0 |
Supposons plutôt que trois caractéristiques (population
, households
et median_income
) ne comptaient que 3000
; en d'autres termes, il manque 14 000 valeurs pour chaque caractéristique:
longitude | latitude | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
count | 17 000,0 | 17 000,0 | 17 000,0 | 3 000,0 | 3 000,0 | 3 000,0 | 17 000,0 |
mean | -119,6 | 35,6 | 2643,7 | 1429,6 | 501,2 | 3.9 | 207,3 |
std | 2,0 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
min | -124,3 | 32,5 | 2,0 | 3,0 | 1,0 | 0.5 | 15,0 |
25 % | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50 % | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3.5 | 180,4 |
75 % | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4.8 | 265,0 |
max | -114,3 | 42,0 | 37937,0 | 35682,0 | 6082,0 | 15,0 | 500,0 |
Avec 14 000 valeurs manquantes,il serait beaucoup plus difficile de mettre en corrélation avec précision les revenus moyens des foyers et les prix médians des logements. Avant d'entraîner un modèle avec ces données, il serait prudent de rechercher la cause de ces valeurs manquantes afin de s'assurer qu'aucun biais latent n'est à l'origine des données manquantes sur le revenu et la population.
Valeurs de caractéristiques inattendues
Lorsque vous explorez des données, vous devez également rechercher des exemples contenant des valeurs de caractéristiques particulièrement inhabituelles ou inhabituelles. Ces valeurs de caractéristiques inattendues peuvent indiquer des problèmes survenus lors de la collecte des données ou d'autres inexactitudes susceptibles d'introduire un biais.
Voici quelques exemples tirés de l'ensemble de données sur l'immobilier en Californie:
longitude | latitude | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
1 | -121,7 | 38.0 | 7105,0 | 3523,0 | 1088,0 | 5,0 | 0.2 |
2 | -122,4 | 37.8 | 2479,0 | 1816,0 | 496,0 | 3.1 | 0,3 |
3 | -122,0 | 37,0 | 2813,0 | 1337,0 | 477,0 | 3.7 | 0,3 |
4 | -103,5 | 43,8 | 2212,0 | 803,0 | 144,0 | 5.3 | 0.2 |
5 | -117,1 | 32,8 | 2963,0 | 1162.0 | 556,0 | 3.6 | 0.2 |
6 | -118,0 | 33,7 | 3396,0 | 1542,0 | 472,0 | 7.4 | 0,4 |
Pouvez-vous identifier des valeurs de caractéristiques inattendues ?
Décalage de données
Toute forme d'asymétrie dans vos données, c'est-à-dire certains groupes ou caractéristiques sous-représentés ou surreprésentés par rapport à leur prévalence réelle, peut introduire un biais dans votre modèle.
Si vous avez terminé l'exercice de programmation de la validation, vous vous souvenez peut-être avoir découvert comment l'échec de la randomisation de l'ensemble de données sur l'immobilier en Californie avant sa division en ensembles d'entraînement et de validation entraînait une forte asymétrie des données. La figure 1 illustre un sous-ensemble de données extraites de l'ensemble de données complet et représentant exclusivement la région nord-ouest de la Californie.
Figure 1. Carte de l'État de Californie sur laquelle sont superposées les données de l'ensemble de données sur l'immobilier en Californie Chaque point représente un bloc résidentiel, avec des couleurs allant du bleu au rouge correspondant au prix médian des logements, respectivement du plus bas au plus élevé.
Si cet échantillon non représentatif était utilisé pour entraîner un modèle permettant de prédire le prix d'un logement californien dans un État, l'absence de données sur le logement dans la partie sud de la Californie serait problématique. Le biais géographique codé dans le modèle peut avoir un impact négatif sur les acheteurs dans les communautés non représentées.