Avaliar modelos usando métricas

Embora a depuração de um modelo de ML possa parecer intimidante, as métricas do modelo mostram por onde começar. As seções a seguir discutem como avaliar o desempenho usando métricas.

Avaliar a qualidade usando métricas do modelo

Para avaliar a qualidade do modelo, as métricas mais usadas são:

Para ver orientações sobre como interpretar essas métricas, leia o conteúdo vinculado em "Conteúdo de falhas no machine learning". Para mais orientações sobre problemas específicos, consulte a tabela a seguir.

Problema Como avaliar a qualidade
Regressão Além de reduzir o erro quadrático médio (MSE), reduza o EQM relacionado aos valores do rótulo. Por exemplo, suponha que você esteja prevendo preços de dois itens que tenham preços médios de 5 e 100. Nos dois casos, suponha que o EQM seja 5. No primeiro caso, o EQM é 100% do seu preço médio, o que é claramente um grande erro. No segundo caso, o EQM é 5% do seu preço médio, o que é um erro razoável.
Classificação multiclasse Se você estiver prevendo um pequeno número de classes, observe as métricas por classe individualmente. Ao prever em muitas classes, é possível calcular a média das métricas por classe para rastrear as métricas gerais de classificação. Como alternativa, é possível priorizar metas de qualidade específicas, dependendo das suas necessidades. Por exemplo, se você estiver classificando objetos em imagens, poderá priorizar a qualidade da classificação para pessoas em relação a outros objetos.

Verifique as métricas para frações importantes de dados

Depois de ter um modelo de alta qualidade, ele ainda pode ter um desempenho ruim em subconjuntos de dados. Por exemplo, seu preditor de unicórnio precisa prever bem no deserto do Saara e na cidade de Nova York e em todos os horários do dia. No entanto, você tem menos dados de treinamento para o deserto do Saara. Portanto, é importante rastrear a qualidade do modelo especificamente para o deserto do Saara. Esses subconjuntos de dados, como o subconjunto correspondente ao deserto do Saara, são chamados de frações de dados. É preciso monitorar separadamente as parcelas de dados em que o desempenho é especialmente importante ou em que o modelo pode ter um desempenho ruim.

Use seu conhecimento sobre os dados para identificar faixas de interesse. Em seguida, compare métricas de modelo para parcelas de dados com as métricas de todo o conjunto de dados. Verificar se o modelo é executado em todas as fatias de dados ajuda a remover o viés. Para mais informações, consulte Regularidade: avaliação de viés.

Usar métricas do mundo real

As métricas do modelo não medem necessariamente o impacto do modelo real. Por exemplo, você pode mudar um hiperparâmetro e aumentar a AUC, mas como a mudança afetou a experiência do usuário? Para medir o impacto no mundo real, você precisa definir métricas separadas. Por exemplo, é possível pesquisar usuários que veem uma previsão de aparência do unicórnio para verificar se eles viram ou não um unicórnio. Medir o impacto do mundo real ajuda a comparar a qualidade de diferentes iterações do seu modelo.