Ao avaliar um modelo, as métricas são calculadas com base em todo um teste ou validação Esse conjunto nem sempre oferece uma imagem precisa de quão justo o modelo é. Um bom desempenho geral do modelo para a maioria dos exemplos pode mascarar um desempenho em um subconjunto de uma minoria de exemplos, o que pode resultar previsões do modelo. O uso de métricas de desempenho agregadas, como precisão, recall, e acurácia não significa necessariamente que para expor esses problemas.
Podemos revisitar nosso modelo de admissão e explorar algumas novas técnicas para saber como avaliar as previsões quanto ao viés, tendo a imparcialidade em mente.
Suponha que o modelo de classificação de admissões selecione 20 alunos para admitir no universitária de um conjunto de 100 candidatos, que pertencem a dois grupos demográficos: o grupo majoritário (azul, 80 alunos) e o grupo minoritário (laranja, 20 alunos).
O modelo deve permitir alunos qualificados de uma maneira que seja justa para com os candidatos em ambos os grupos demográficos.
Como devemos avaliar as previsões do modelo quanto à imparcialidade? Há uma variedade de métricas que podemos considerar, cada uma fornecendo uma métrica matemática diferente definição de "imparcialidade". Nas seções a seguir, vamos conhecer três métricas de imparcialidade em profundidade: paridade demográfica, igualdade de oportunidade, e contrafactual com a imparcialidade.