Imparcialidade: teste seu conhecimento

  1. Verdadeiro ou falso: o viés histórico ocorre quando um modelo é treinado com dados antigos.

  2. Engenheiros estão treinando um modelo de regressão para prever o conteúdo calórico de refeições com base em vários dados de recursos coletados de sites de receitas do mundo todo, incluindo tamanho da porção, ingredientes e técnicas de preparo. Quais dos seguintes problemas de dados são possíveis fontes de viés que devem ser investigadas mais a fundo?

    Escolha quantas respostas você achar adequado.

  3. Um modelo de detecção de sarcasmo foi treinado com 80 mil mensagens de texto: 40 mil mensagens enviadas por adultos (18 anos ou mais) e 40 mil mensagens enviadas por menores (menos de 18 anos). O modelo foi então avaliado em um conjunto de teste com 20.000 mensagens: 10.000 de adultos e 10.000 de menores. As seguintes matrizes de confusão mostram os resultados para cada grupo (uma previsão positiva significa uma classificação de "sarcástico", uma previsão negativa significa uma classificação de "não sarcástico"):

    Adultos

    Verdadeiros positivos (VPs): 512 Falsos positivos (FPs): 51
    Falsos negativos (FNs): 36 Verdadeiros negativos (VNs): 9.401
    Precisão = VP/(VP + FP) = 0,909
    Recall = VP/(VP + FN) = 0,934

    Menores

    Verdadeiros positivos (VPs): 2.147 Falsos positivos (FPs): 96
    Falsos negativos (FNs): 2.177 Verdadeiros negativos (VNs): 5.580
    Precisão = VP/(VP + FP) = 0,957
    Recall = VP/(VP + FN) = 0,497

    Quais das afirmações a seguir sobre o desempenho do conjunto de testes do modelo são verdadeiras?

    Escolha quantas respostas você achar adequado.

  4. Qual das hipóteses a seguir poderia explicar as discrepâncias no desempenho do subgrupo no conjunto de teste para o modelo de detecção de sarcasmo acima?

    Escolha quantas respostas você achar adequado.

  5. Os engenheiros estão trabalhando para retreinar o modelo de sarcasmo acima para lidar com inconsistências na precisão da detecção de sarcasmo em dados demográficos de idades, mas o modelo já foi lançado para produção. Qual das seguintes estratégias de solução temporária ajudará a reduzir os erros nas previsões do modelo?