À medida que você explora seus dados para determinar a melhor maneira de representar esses modelos no modelo, é importante considerar os problemas de imparcialidade e auditar proativamente fontes em potencial de viés.
Onde o viés pode parecer distorcido? Veja três sinais de alerta no seu conjunto de dados.
Valores de atributo ausente
Se o conjunto de dados tiver um ou mais atributos sem muitos valores, isso poderá indicar que determinadas características importantes dele são sub-representadas.
Por exemplo, a tabela abaixo mostra um resumo das principais estatísticas de um subconjunto de recursos no conjunto de dados de habitação da Califórnia, armazenado em um DataFrame
do pandas e gerado via DataFrame.describe
. Todos os recursos têm um count
de 17000, indicando que
não há valores ausentes:
longitude | latitude | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
contagem | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 | 17.000,0 |
média | -119,6 | 35,6 | 2.643,7 | 1.429,6 | 501,2 | 3,9 | 207,3 |
padrão | 2 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
min | -124,3 | 32,5 | 2 | 3 | 1.0 | 0,5 | 15 |
25% | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50% | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3.5 | 180,4 |
75% | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4,8 | 265,0 |
max | -114,3 | 42,0 | 37937,0 | 35682,0 | 6082,0 | 15 | 500,0 |
Vamos supor que três recursos (population
, households
e median_income
)
tenham apenas uma contagem de 3000
. Em outras palavras, que havia 14.000 valores ausentes para
cada recurso:
longitude | latitude | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
contagem | 17.000,0 | 17.000,0 | 17.000,0 | 3000,0 | 3000,0 | 3000,0 | 17.000,0 |
média | -119,6 | 35,6 | 2.643,7 | 1.429,6 | 501,2 | 3,9 | 207,3 |
padrão | 2 | 2.1 | 2179,9 | 1147,9 | 384,5 | 1.9 | 116,0 |
min | -124,3 | 32,5 | 2 | 3 | 1.0 | 0,5 | 15 |
25% | -121,8 | 33,9 | 1462,0 | 790,0 | 282,0 | 2.6 | 119,4 |
50% | -118,5 | 34,2 | 2127,0 | 1167,0 | 409,0 | 3.5 | 180,4 |
75% | -118,0 | 37,7 | 3151,2 | 1721,0 | 605,2 | 4,8 | 265,0 |
max | -114,3 | 42,0 | 37937,0 | 35682,0 | 6082,0 | 15 | 500,0 |
Esses 14.000 valores ausentes dificultariam a correlação precisa de renda familiar com preços médios de casas. Antes de treinar um modelo com esses dados, é prudente investigar a causa desses valores ausentes para garantir que não haja vieses latentes responsáveis pela ausência de dados de renda e população.
Valores de atributo inesperados
Ao analisar os dados, procure também exemplos que contenham valores de recursos que se destacam como especialmente não característicos ou incomuns. Esses valores de recurso inesperados podem indicar problemas ocorridos durante a coleta de dados ou outras imprecisões que podem introduzir viés.
Por exemplo, veja os seguintes exemplos do conjunto de dados de habitação da Califórnia:
longitude | latitude | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
1 | -121,7 | 38.0 | 7105,0 | 3523,0 | 1088,0 | 5 | 0,2 |
2 | -122,4 | 37,8 | 2479,0 | 1816,0 | 496,0 | 3.1 | 0,3 |
3 | -122,0 | 37,0 | 2813,0 | 1337,0 | 477,0 | 3.7 | 0,3 |
4 | -103,5 | 43,8 | 2212,0 | 803,0 | 144,0 | 5.3 | 0,2 |
5 | -117,1 | 32,8 | 2.963,0 | 1162,0 | 556,0 | 3.6 | 0,2 |
6 | -118,0 | 33,7 | 3396,0 | 1542,0 | 472,0 | 7.4 | 0,4 |
Você consegue identificar valores de atributo inesperados?
Desvios nos dados
Qualquer tipo de distorção nos dados, em que determinados grupos ou características são sub-representados ou super-representados em relação à precedência real deles, pode introduzir vieses no modelo.
Se você concluiu o exercício de programação de validação, pode se lembrar de descobrir como uma falha na ordem aleatória do conjunto de dados de habitação da Califórnia antes de dividi-lo em conjuntos de treinamento e validação resultou em um desvio de dados pronunciado. A Figura 1 mostra um subconjunto de dados extraídos do conjunto completo que representa exclusivamente a região noroeste da Califórnia.
Figura 1. Mapa de estado da Califórnia sobreposto por dados do conjunto de dados de habitação da Califórnia. Cada ponto representa um bloco habitacional, com cores que vão de azul a vermelho, correspondente ao preço médio da casa, de baixo para alto, respectivamente.
Se essa amostra não representativa fosse usada para treinar um modelo para prever preços de casas na Califórnia, a falta de dados imobiliários de partes sul da Califórnia seria problemática. O viés geográfico codificado no modelo pode afetar negativamente os compradores de imóveis em comunidades não representadas.