Imparcialidade: como identificar vieses

Ao preparar seus dados para treinamento e avaliação do modelo, é importante considerar questões de imparcialidade e auditar possíveis fontes de viés para mitigar os efeitos de forma proativa antes de lançar o modelo na produção.

Onde o viés pode estar escondido? Confira alguns alertas vermelhos no seu conjunto de dados.

Valores de atributo ausentes

Se seu conjunto de dados tem um ou mais atributos com valores ausentes para um grande número de exemplos, isso pode ser um indicador de que algumas características importantes do conjunto de dados estão sub-representadas.

Exercício: testar seu conhecimento

Você está treinando um modelo para prever a capacidade de adoção de cães resgatados com base em vários recursos, incluindo raça, idade, peso, temperamento e quantidade de pelos perdidos por dia. Seu objetivo é garantir que o modelo tenha um bom desempenho em todos os tipos de cães, independentemente das características físicas ou comportamentais

Você descobre que 1.500 dos 5.000 exemplos no conjunto de treinamento estão sem valores de temperamento. Quais das opções a seguir são possíveis fontes de viés que você deve investigar?

Os dados de temperamento estão ausentes do conjunto de dados de forma aleatória.
Os dados de temperamento estão faltando para todos os cães resgatados de grandes cidades.
Os dados de temperamento têm mais probabilidade de estar ausentes em cães com menos de 12 meses de idade
É mais provável que os dados de temperamento estejam faltando para determinadas raças de cães.

Valores de atributo inesperados

Ao explorar dados, procure também exemplos que contenham valores de atributos que se destaquem como especialmente incomuns ou incomuns. Esses valores de recurso inesperados podem indicar problemas que ocorreram durante a coleta de dados ou outras imprecisões que podem introduzir viés.

Exercício: testar seu conhecimento

Confira o conjunto hipotético de exemplos a seguir para treinar um modelo de adoção de cães resgatados.

raça idade (anos) peso (lb) temperamento shedding_level
poodle de brinquedo 2 12 animado baixo
golden retriever 7 65 calmo high
labrador retriever 35 73 calmo high
buldogue francês 0,5 11 calmo médio
raça desconhecida 4 45 excitável high
Basset Hound 9 48 calmo médio
Você consegue identificar algum problema com os dados do elemento?
Clique aqui para conferir a resposta

Desvio de dados

Qualquer tipo de distorção nos dados, em que determinados grupos ou características podem ser sub-ou super-representados em relação à prevalência no mundo real, pode introduzir viés no modelo.

Ao auditar a performance do modelo, é importante não apenas analisar os resultados no agregado, mas também dividir os resultados por subgrupo. Por exemplo, no caso do nosso modelo de adoção de cães resgatados, para garantir a imparcialidade, não basta apenas analisar a precisão geral. Também precisamos auditar a performance por subgrupo para garantir que o modelo tenha um bom desempenho para cada raça, grupo de idade e tamanho de cachorro.

Mais adiante neste módulo, em Como avaliar vieses, vamos conhecer melhor os diferentes métodos de avaliação de modelos por subgrupo.