Équité: identifier les biais

Lorsque vous explorez vos données pour déterminer la meilleure façon de les représenter dans votre modèle, il est important de garder à l'esprit les problèmes d'équité et de vérifier de manière proactive les sources de biais potentielles.

Où pourrait tendre le biais ? Voici trois signaux à surveiller dans votre ensemble de données.

Valeurs de caractéristiques manquantes

Si votre ensemble de données comporte une ou plusieurs caractéristiques dont les valeurs sont manquantes pour un grand nombre d'exemples, cela peut indiquer que certaines caractéristiques clés sont sous-représentées.

Par exemple, le tableau ci-dessous présente un résumé des statistiques clés d'un sous-ensemble de caractéristiques de l'ensemble de données sur l'immobilier en Californie, stockées dans un DataFrame pandas et générées via DataFrame.describe. Notez que toutes les caractéristiques ont une valeur count de 17 000, ce qui indique qu'il ne manque aucune valeur:

longitude latitude total_rooms population households median_income median_house_value
count 17 000,0 17 000,0 17 000,0 17 000,0 17 000,0 17 000,0 17 000,0
mean -119,6 35,6 2643,7 1429,6 501,2 3.9 207,3
std 2,0 2.1 2179,9 1147,9 384,5 1.9 116,0
min -124,3 32,5 2,0 3,0 1,0 0.5 15,0
25 % -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50 % -118,5 34,2 2127,0 1167,0 409,0 3.5 180,4
75 % -118,0 37,7 3151,2 1721,0 605,2 4.8 265,0
max -114,3 42,0 37937,0 35682,0 6082,0 15,0 500,0

Supposons plutôt que trois caractéristiques (population, households et median_income) ne comptaient que 3000 ; en d'autres termes, il manque 14 000 valeurs pour chaque caractéristique:

longitude latitude total_rooms population households median_income median_house_value
count 17 000,0 17 000,0 17 000,0 3 000,0 3 000,0 3 000,0 17 000,0
mean -119,6 35,6 2643,7 1429,6 501,2 3.9 207,3
std 2,0 2.1 2179,9 1147,9 384,5 1.9 116,0
min -124,3 32,5 2,0 3,0 1,0 0.5 15,0
25 % -121,8 33,9 1462,0 790,0 282,0 2.6 119,4
50 % -118,5 34,2 2127,0 1167,0 409,0 3.5 180,4
75 % -118,0 37,7 3151,2 1721,0 605,2 4.8 265,0
max -114,3 42,0 37937,0 35682,0 6082,0 15,0 500,0

Avec 14 000 valeurs manquantes,il serait beaucoup plus difficile de mettre en corrélation avec précision les revenus moyens des foyers et les prix médians des logements. Avant d'entraîner un modèle avec ces données, il serait prudent de rechercher la cause de ces valeurs manquantes afin de s'assurer qu'aucun biais latent n'est à l'origine des données manquantes sur le revenu et la population.

Valeurs de caractéristiques inattendues

Lorsque vous explorez des données, vous devez également rechercher des exemples contenant des valeurs de caractéristiques particulièrement inhabituelles ou inhabituelles. Ces valeurs de caractéristiques inattendues peuvent indiquer des problèmes survenus lors de la collecte des données ou d'autres inexactitudes susceptibles d'introduire un biais.

Voici quelques exemples tirés de l'ensemble de données sur l'immobilier en Californie:

longitude latitude total_rooms population households median_income median_house_value
1 -121,7 38.0 7105,0 3523,0 1088,0 5,0 0.2
2 -122,4 37.8 2479,0 1816,0 496,0 3.1 0,3
3 -122,0 37,0 2813,0 1337,0 477,0 3.7 0,3
4 -103,5 43,8 2212,0 803,0 144,0 5.3 0.2
5 -117,1 32,8 2963,0 1162.0 556,0 3.6 0.2
6 -118,0 33,7 3396,0 1542,0 472,0 7.4 0,4

Pouvez-vous identifier des valeurs de caractéristiques inattendues ?

Décalage de données

Toute forme d'asymétrie dans vos données, c'est-à-dire certains groupes ou caractéristiques sous-représentés ou surreprésentés par rapport à leur prévalence réelle, peut introduire un biais dans votre modèle.

Si vous avez terminé l'exercice de programmation de la validation, vous vous souvenez peut-être avoir découvert comment l'échec de la randomisation de l'ensemble de données sur l'immobilier en Californie avant sa division en ensembles d'entraînement et de validation entraînait une forte asymétrie des données. La figure 1 illustre un sous-ensemble de données extraites de l'ensemble de données complet et représentant exclusivement la région nord-ouest de la Californie.

Carte de l'État de Californie sur laquelle sont superposées les données de l'ensemble de données sur l'immobilier en Californie
          Chaque point représente un bloc résidentiel. Les points sont tous regroupés dans le nord-ouest de la Californie, sans point dans le sud de la Californie, ce qui illustre l'asymétrie géographique des données

Figure 1. Carte de l'État de Californie sur laquelle sont superposées les données de l'ensemble de données sur l'immobilier en Californie Chaque point représente un bloc résidentiel, avec des couleurs allant du bleu au rouge correspondant au prix médian des logements, respectivement du plus bas au plus élevé.

Si cet échantillon non représentatif était utilisé pour entraîner un modèle permettant de prédire le prix d'un logement californien dans un État, l'absence de données sur le logement dans la partie sud de la Californie serait problématique. Le biais géographique codé dans le modèle peut avoir un impact négatif sur les acheteurs dans les communautés non représentées.