Ao preparar seus dados para treinamento e avaliação do modelo, é importante considerar questões de imparcialidade e auditar possíveis fontes de viés para mitigar os efeitos de forma proativa antes de lançar o modelo na produção.
Onde o viés pode estar escondido? Confira alguns alertas vermelhos no seu conjunto de dados.
Valores de atributo ausentes
Se seu conjunto de dados tem um ou mais atributos com valores ausentes para um grande número de exemplos, isso pode ser um indicador de que algumas características importantes do conjunto de dados estão sub-representadas.
Exercício: testar seu conhecimento
Você descobre que 1.500 dos 5.000 exemplos no conjunto de treinamento estão sem valores de temperamento. Quais das opções a seguir são possíveis fontes de viés que você deve investigar?
Valores de atributo inesperados
Ao explorar dados, procure também exemplos que contenham valores de atributos que se destaquem como especialmente incomuns ou incomuns. Esses valores de recurso inesperados podem indicar problemas que ocorreram durante a coleta de dados ou outras imprecisões que podem introduzir viés.
Exercício: testar seu conhecimento
Confira o conjunto hipotético de exemplos a seguir para treinar um modelo de adoção de cães resgatados.
raça | idade (anos) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
poodle de brinquedo | 2 | 12 | animado | baixo |
golden retriever | 7 | 65 | calmo | high |
labrador retriever | 35 | 73 | calmo | high |
buldogue francês | 0,5 | 11 | calmo | médio |
raça desconhecida | 4 | 45 | excitável | high |
Basset Hound | 9 | 48 | calmo | médio |
raça | idade (anos) | peso (lb) | temperamento | shedding_level |
---|---|---|---|---|
poodle de brinquedo | 2 | 12 | animado | baixo |
golden retriever | 7 | 65 | calmo | high |
labrador retriever | 35 | 73 | calmo | high |
buldogue francês | 0,5 | 11 | calmo | médio |
raça desconhecida | 4 | 45 | excitável | high |
Basset Hound | 9 | 48 | calmo | médio |
O cão mais velho a ter a idade verificada pelo Guinness World Records foi Bluey, um Australian Cattle Dog que viveu até os 29 anos e 5 meses. Dado isso, parece bastante implausível que o labrador tenha 35 anos de idade e a idade do cachorro tenha sido calculada ou registrada incorretamente (talvez o cachorro tenha, na verdade, 3,5 anos de idade). Esse erro também pode indicar problemas de precisão mais amplos com dados de idade no conjunto de dados que merecem investigação adicional.
Desvio de dados
Qualquer tipo de distorção nos dados, em que determinados grupos ou características podem ser sub-ou super-representados em relação à prevalência no mundo real, pode introduzir viés no modelo.
Ao auditar a performance do modelo, é importante não apenas analisar os resultados no agregado, mas também dividir os resultados por subgrupo. Por exemplo, no caso do nosso modelo de adoção de cães resgatados, para garantir a imparcialidade, não basta apenas analisar a precisão geral. Também precisamos auditar a performance por subgrupo para garantir que o modelo tenha um bom desempenho para cada raça, grupo de idade e tamanho de cachorro.
Mais adiante neste módulo, em Como avaliar vieses, vamos conhecer melhor os diferentes métodos de avaliação de modelos por subgrupo.