Imparcialidade: teste seu conhecimento

Verdadeiro ou falso: o viés histórico ocorre quando um modelo é treinado com dados antigos.

Verdadeiro

Falso

Engenheiros estão treinando um modelo de regressão para prever o conteúdo calórico de refeições com base em vários dados de recursos coletados de sites de receitas do mundo todo, incluindo tamanho da porção, ingredientes e técnicas de preparo. Quais dos seguintes problemas de dados são possíveis fontes de viés que devem ser investigadas mais a fundo?

Escolha quantas respostas você achar adequado.

Aproximadamente 4.000 dos 40.000 exemplos de treinamento não tinham um valor para o atributo "tamanho da exibição".

Aproximadamente 5.000 exemplos de treinamento tinham medidas em unidades imperiais (onças, libras etc.), enquanto os outros 35.000 exemplos tinham medidas em unidades métricas (gramas, litros etc.).

Aproximadamente 100 dos 40.000 exemplos de treinamento tinham valores de ingredientes altamente provavelmente incorretos (por exemplo, 100 pedaços de manteiga).

Algumas refeições populares foram sub-representadas nos dados de treinamento em relação a outras refeições populares (por exemplo, havia 200 exemplos de treinamento para dosa, mas apenas 10 para pizza).

Um modelo de detecção de sarcasmo foi treinado com 80 mil mensagens de texto: 40 mil mensagens enviadas por adultos (18 anos ou mais) e 40 mil mensagens enviadas por menores (menos de 18 anos). O modelo foi então avaliado em um conjunto de teste com 20.000 mensagens: 10.000 de adultos e 10.000 de menores. As seguintes matrizes de confusão mostram os resultados para cada grupo (uma previsão positiva significa uma classificação de "sarcástico", uma previsão negativa significa uma classificação de "não sarcástico"):

Adultos

Verdadeiros positivos (VPs): 512	Falsos positivos (FPs): 51
Falsos negativos (FNs): 36	Verdadeiros negativos (VNs): 9.401
Precisão = VP/(VP + FP) = 0,909
Recall = VP/(VP + FN) = 0,934

Menores

Verdadeiros positivos (VPs): 2.147	Falsos positivos (FPs): 96
Falsos negativos (FNs): 2.177	Verdadeiros negativos (VNs): 5.580
Precisão = VP/(VP + FP) = 0,957
Recall = VP/(VP + FN) = 0,497

Quais das afirmações a seguir sobre o desempenho do conjunto de testes do modelo são verdadeiras?

Escolha quantas respostas você achar adequado.

O modelo tem um desempenho melhor em exemplos de adultos do que de menores.

As 10.000 mensagens enviadas por adultos representam um conjunto de dados desequilibrado.

As 10 mil mensagens enviadas por menores representam um conjunto de dados desequilibrado.

Aproximadamente 50% das mensagens enviadas por menores são classificadas incorretamente como "sarcásticos".

O modelo não classifica aproximadamente 50% das mensagens sarcásticas de menores como "sarcásticas".

Qual das hipóteses a seguir poderia explicar as discrepâncias no desempenho do subgrupo no conjunto de teste para o modelo de detecção de sarcasmo acima?

Escolha quantas respostas você achar adequado.

O modelo erra demais em prever "sarcástica". Como resultado, ele comete mais erros ao classificar menores mensagens de texto, porque há mais mensagens sarcásticas de menores no conjunto de teste.

O modelo foi avaliado com base em exemplos mais negativos (não sarcásticos) de menores do que de adultos, resultando em mais erros para menores.

O sarcasmo nas mensagens de texto de menores foi mais sutil e, portanto, menos provável de ser sinalizado pelo modelo.

Há muito menos mensagens sarcásticas reais de adultos do que de menores. Se o modelo for avaliado com base em um conjunto de mensagens adultas com classes mais equilibradas, o recall dele poderá cair para esse subgrupo.

Os engenheiros estão trabalhando para retreinar o modelo de sarcasmo acima para lidar com inconsistências na precisão da detecção de sarcasmo em dados demográficos de idades, mas o modelo já foi lançado para produção. Qual das seguintes estratégias de solução temporária ajudará a reduzir os erros nas previsões do modelo?

Restringir o uso do modelo a mensagens de texto enviadas por menores.

Ajuste a saída do modelo para que ele retorne "sarcástico" em todas as mensagens de texto enviadas por menores, independentemente do que o modelo previu originalmente.

Quando o modelo prevê "não sarcástico" para mensagens de texto enviadas por menores, ajuste a saída para que o modelo retorne o valor "não tenho certeza".