Imparcialidade: como identificar vieses

Ao preparar seus dados para treinamento e avaliação do modelo, é importante considerar questões de imparcialidade e auditar possíveis fontes de viés para mitigar os efeitos de forma proativa antes de lançar o modelo na produção.

Onde o viés pode estar escondido? Confira alguns alertas vermelhos no seu conjunto de dados.

Valores de atributo ausentes

Se seu conjunto de dados tem um ou mais atributos com valores ausentes para um grande número de exemplos, isso pode ser um indicador de que algumas características importantes do conjunto de dados estão sub-representadas.

Exercício: testar seu conhecimento

Você está treinando um modelo para prever a capacidade de adoção de cães resgatados com base em vários recursos, incluindo raça, idade, peso, temperamento e quantidade de pelos perdidos por dia. Seu objetivo é garantir que o modelo tenha um bom desempenho em todos os tipos de cães, independentemente das características físicas ou comportamentais

Você descobre que 1.500 dos 5.000 exemplos no conjunto de treinamento estão sem valores de temperamento. Quais das opções a seguir são possíveis fontes de viés que você deve investigar?

É mais provável que os dados de temperamento estejam faltando para determinadas raças de cães.

Se a disponibilidade de dados de temperamento estiver relacionada à raça do cachorro, isso poderá resultar em previsões de adoção menos precisas para determinadas raças.

Os dados de temperamento têm mais probabilidade de estar ausentes em cães com menos de 12 meses de idade

Se a disponibilidade dos dados de temperamento estiver relacionada à idade, isso poderá resultar em previsões de adoção menos precisas para filhotes em comparação com cães adultos.

Os dados de temperamento estão faltando para todos os cães resgatados de grandes cidades.

À primeira vista, pode parecer que isso não é uma possível fonte de viés, já que os dados ausentes afetariam todos os cães de grandes cidades igualmente, independentemente da raça, idade, peso etc. No entanto, ainda precisamos considerar que o local de origem de um cão pode servir como um substituto para essas características físicas. Por exemplo, se os cães de grandes cidades têm muito mais probabilidade de serem menores do que os de áreas mais rurais, isso pode resultar em previsões de adaptabilidade menos precisas para cães de menor peso ou certas raças de cães pequenos.

Os dados de temperamento estão ausentes do conjunto de dados de forma aleatória.

Se os dados de temperamento estiverem realmente ausentes aleatoriamente, isso não será uma possível fonte de viés. No entanto, é possível que os dados de temperamento pareçam estar ausentes aleatoriamente, mas uma investigação mais aprofundada pode revelar uma explicação para a discrepância. Portanto, é importante fazer uma análise completa para descartar outras possibilidades, em vez de presumir que as lacunas de dados são aleatórias.

Valores de atributo inesperados

Ao explorar dados, procure também exemplos que contenham valores de atributos que se destaquem como especialmente incomuns ou incomuns. Esses valores de recurso inesperados podem indicar problemas que ocorreram durante a coleta de dados ou outras imprecisões que podem introduzir viés.

Exercício: testar seu conhecimento

Confira o conjunto hipotético de exemplos a seguir para treinar um modelo de adoção de cães resgatados.

raça	idade (anos)	peso (lb)	temperamento	shedding_level
poodle de brinquedo	2	12	animado	baixo
golden retriever	7	65	calmo	high
labrador retriever	35	73	calmo	high
buldogue francês	0,5	11	calmo	médio
raça desconhecida	4	45	excitável	high
Basset Hound	9	48	calmo	médio

Você consegue identificar algum problema com os dados do elemento?

Clique aqui para conferir a resposta

raça	idade (anos)	peso (lb)	temperamento	shedding_level
poodle de brinquedo	2	12	animado	baixo
golden retriever	7	65	calmo	high
labrador retriever	35	73	calmo	high
buldogue francês	0,5	11	calmo	médio
raça desconhecida	4	45	excitável	high
Basset Hound	9	48	calmo	médio

O cão mais velho a ter a idade verificada pelo Guinness World Records foi Bluey, um Australian Cattle Dog que viveu até os 29 anos e 5 meses. Dado isso, parece bastante implausível que o labrador tenha 35 anos de idade e a idade do cachorro tenha sido calculada ou registrada incorretamente (talvez o cachorro tenha, na verdade, 3,5 anos de idade). Esse erro também pode indicar problemas de precisão mais amplos com dados de idade no conjunto de dados que merecem investigação adicional.

Desvio de dados

Qualquer tipo de distorção nos dados, em que determinados grupos ou características podem ser sub-ou super-representados em relação à prevalência no mundo real, pode introduzir viés no modelo.

Ao auditar a performance do modelo, é importante não apenas analisar os resultados no agregado, mas também dividir os resultados por subgrupo. Por exemplo, no caso do nosso modelo de adoção de cães resgatados, para garantir a imparcialidade, não basta apenas analisar a precisão geral. Também precisamos auditar a performance por subgrupo para garantir que o modelo tenha um bom desempenho para cada raça, grupo de idade e tamanho de cachorro.

Mais adiante neste módulo, em Como avaliar vieses, vamos conhecer melhor os diferentes métodos de avaliação de modelos por subgrupo.

Tipos de viés (5 min)

Avançar

Mitigação de vieses (5 min)

Imparcialidade: como identificar vieses Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Valores de atributo ausentes

Exercício: testar seu conhecimento

Valores de atributo inesperados

Exercício: testar seu conhecimento

Desvio de dados

Imparcialidade: como identificar vieses