Imparcialidade: como identificar vieses

Ao preparar seus dados para treinamento e avaliação do modelo, é importante considerar questões de imparcialidade e auditar possíveis fontes de viés para mitigar os efeitos de forma proativa antes de lançar o modelo na produção.

Onde o viés pode estar escondido? Confira alguns alertas vermelhos no seu conjunto de dados.

Valores de atributo ausentes

Se seu conjunto de dados tem um ou mais atributos com valores ausentes para um grande número de exemplos, isso pode ser um indicador de que algumas características importantes do conjunto de dados estão sub-representadas.

Exercício: testar seu conhecimento

Você está treinando um modelo para prever a capacidade de adoção de cães resgatados com base em vários recursos, incluindo raça, idade, peso, temperamento e quantidade de pelos perdidos por dia. Seu objetivo é garantir que o modelo tenha um bom desempenho em todos os tipos de cães, independentemente das características físicas ou comportamentais

Você descobre que 1.500 dos 5.000 exemplos no conjunto de treinamento estão sem valores de temperamento. Quais das opções a seguir são possíveis fontes de viés que você deve investigar?

É mais provável que os dados de temperamento estejam faltando para determinadas raças de cães.
Se a disponibilidade de dados de temperamento estiver relacionada à raça do cachorro, isso poderá resultar em previsões de adoção menos precisas para determinadas raças.
Os dados de temperamento têm mais probabilidade de estar ausentes em cães com menos de 12 meses de idade
Se a disponibilidade dos dados de temperamento estiver relacionada à idade, isso poderá resultar em previsões de adoção menos precisas para filhotes em comparação com cães adultos.
Os dados de temperamento estão faltando para todos os cães resgatados de grandes cidades.
À primeira vista, pode parecer que isso não é uma possível fonte de viés, já que os dados ausentes afetariam todos os cães de grandes cidades igualmente, independentemente da raça, idade, peso etc. No entanto, ainda precisamos considerar que o local de origem de um cão pode servir como um substituto para essas características físicas. Por exemplo, se os cães de grandes cidades têm muito mais probabilidade de serem menores do que os de áreas mais rurais, isso pode resultar em previsões de adaptabilidade menos precisas para cães de menor peso ou certas raças de cães pequenos.
Os dados de temperamento estão ausentes do conjunto de dados de forma aleatória.
Se os dados de temperamento estiverem realmente ausentes aleatoriamente, isso não será uma possível fonte de viés. No entanto, é possível que os dados de temperamento pareçam estar ausentes aleatoriamente, mas uma investigação mais aprofundada pode revelar uma explicação para a discrepância. Portanto, é importante fazer uma análise completa para descartar outras possibilidades, em vez de presumir que as lacunas de dados são aleatórias.

Valores de atributo inesperados

Ao explorar dados, procure também exemplos que contenham valores de atributos que se destaquem como especialmente incomuns ou incomuns. Esses valores de recurso inesperados podem indicar problemas que ocorreram durante a coleta de dados ou outras imprecisões que podem introduzir viés.

Exercício: testar seu conhecimento

Confira o conjunto hipotético de exemplos a seguir para treinar um modelo de adoção de cães resgatados.

raça idade (anos) peso (lb) temperamento shedding_level
poodle de brinquedo 2 12 animado baixo
golden retriever 7 65 calmo high
labrador retriever 35 73 calmo high
buldogue francês 0,5 11 calmo médio
raça desconhecida 4 45 excitável high
Basset Hound 9 48 calmo médio
Você consegue identificar algum problema com os dados do elemento?
Clique aqui para conferir a resposta

Desvio de dados

Qualquer tipo de distorção nos dados, em que determinados grupos ou características podem ser sub-ou super-representados em relação à prevalência no mundo real, pode introduzir viés no modelo.

Ao auditar a performance do modelo, é importante não apenas analisar os resultados no agregado, mas também dividir os resultados por subgrupo. Por exemplo, no caso do nosso modelo de adoção de cães resgatados, para garantir a imparcialidade, não basta apenas analisar a precisão geral. Também precisamos auditar a performance por subgrupo para garantir que o modelo tenha um bom desempenho para cada raça, grupo de idade e tamanho de cachorro.

Mais adiante neste módulo, em Como avaliar vieses, vamos conhecer melhor os diferentes métodos de avaliação de modelos por subgrupo.