Como você vai saber se o trabalho da sua implementação de ML valeu a pena? Quando você deve começar a comemorar: logo após o modelo entrar em produção e exibir sua primeira previsão ou somente depois que uma métrica de negócios quantitativa começar a se mover na direção certa?
Antes de iniciar um projeto, é fundamental definir as métricas de sucesso e chegar a um acordo sobre as entregas. Você precisará definir e acompanhar os dois tipos de métricas a seguir:
Métricas de negócios. São métricas para quantificar o desempenho dos negócios, por exemplo, receita, taxa de cliques ou número de usuários.
Métricas de modelo. Métricas para quantificar a qualidade do modelo, por exemplo, Raiz do erro quadrático médio, precisão ou recall.
Métricas de negócios
As métricas de negócios são as mais importantes. É por isso que você está usando o ML: quer melhorar os negócios.
Comece com métricas quantificáveis de produto ou negócios. A métrica deve ser a mais granular e focada possível. Veja a seguir exemplos de métricas de negócios focadas e quantificáveis:
- Reduzir os custos mensais com energia de um data center em 30%.
- Aumentar a receita de recomendações de produtos em 12%.
- Aumentar a taxa de cliques em 9%.
- Aumentar a confiança do cliente nas pesquisas de permissão em 20%.
- Aumentar o tempo na página em 4%.
Como rastrear métricas de negócios
Se você não estiver rastreando a métrica de negócios que quer melhorar, comece implementando a infraestrutura para fazer isso. Definir uma meta para aumentar a taxa de cliques em 15% não será lógico se você não estiver medindo as taxas de cliques no momento.
Mais importante ainda, verifique se você está medindo a métrica certa para seu problema. Por exemplo, não gaste tempo escrevendo instrumentação para rastrear as taxas de cliques se a métrica mais importante for a receita das recomendações.
À medida que seu projeto avança, você percebe se a métrica de sucesso desejada é realmente uma meta realista. Em alguns casos, você pode determinar que o projeto não é viável dadas as métricas de sucesso definidas.
Métricas do modelo
Quando você deve colocar o modelo em produção? Quando o AUC está em um determinado valor? Quando o modelo atinge uma pontuação F1 específica? A resposta depende do tipo de problema que você está resolvendo e da qualidade de previsão que você acha que precisa para melhorar a métrica de negócios.
Ao determinar com quais métricas avaliar seu modelo, considere o seguinte:
Determine uma única métrica para otimizar. Por exemplo, os modelos de classificação podem ser avaliados em relação a várias métricas (AUC, AUC-PR etc.). Escolher o melhor modelo pode ser desafiador quando métricas diferentes favorecem modelos distintos. Portanto, chegue a um acordo sobre uma única métrica para avaliar os modelos.
Determine as metas de aceitabilidade a serem cumpridas. As metas de aceitabilidade são diferentes das métricas de avaliação do modelo. Elas se referem às metas que um modelo precisa atender para ser considerado aceitável para um caso de uso pretendido. Por exemplo, uma meta de aceitação pode ser "o resultado incorreto é menor que 0,1%" ou "o recall das cinco principais categorias é maior que 97%".
Por exemplo, suponha que um modelo de classificação binária detecte transações fraudulentas. A métrica de otimização pode ser recall, enquanto a meta de aceitabilidade pode ser precisão. Em outras palavras, priorizamos o recall (identificando corretamente a fraude na maioria das vezes) e, ao mesmo tempo, queremos que a precisão permaneça igual ou acima de um valor específico (identificando transações fraudulentas reais).
Conexão entre métricas de modelo e métricas de negócios
Essencialmente, você está tentando desenvolver um modelo cuja qualidade de previsão está causadamente conectada à sua métrica de negócios. Boas métricas de modelo não implicam necessariamente métricas de negócios aprimoradas. Sua equipe pode desenvolver um modelo com métricas impressionantes, mas as previsões do modelo podem não melhorar a métrica de negócios.
Quando a qualidade da previsão do modelo for satisfatória, determine como as métricas do modelo afetam a métrica de negócios. Normalmente, as equipes implantam o modelo para 1% dos usuários e depois monitoram a métrica de negócios.
Por exemplo, digamos que sua equipe desenvolva um modelo para aumentar a receita prevendo a desistência de clientes. Em teoria, se for possível prever se um cliente provavelmente deixará a plataforma, você poderá incentivá-lo a ficar.
Sua equipe cria um modelo com 95% de qualidade de previsão e o testa em uma amostra pequena de usuários. No entanto, a receita não aumenta. Na verdade, a desistência de clientes aumenta. Aqui estão algumas explicações possíveis:
As previsões não ocorrem cedo o suficiente para serem acionáveis. O modelo só consegue prever o desligamento de clientes em um período de sete dias, o que não é tão cedo o suficiente para oferecer incentivos para mantê-los na plataforma.
Recursos incompletos: Talvez outros fatores contribuam para a desistência de clientes que não estavam no conjunto de dados de treinamento.
O limite não é alto o suficiente. O modelo pode precisar ter uma qualidade de previsão de 97% ou mais para ser útil.
Este exemplo simples destaca os dois pontos:
- É importante realizar testes iniciais de usuário para provar (e entender) a conexão entre as métricas do modelo e as métricas de negócios.
- Boas métricas de modelo não garantem métricas de negócios melhores.
IA generativa
Avaliar os resultados da IA generativa apresenta desafios únicos. Em muitos casos, como saídas abertas ou criativas, é mais difícil do que avaliar as saídas de ML tradicionais.
Os LLMs podem ser medidos e avaliados em relação a diversas métricas. A determinação de quais métricas avaliar seu modelo depende do caso de uso. Para mais informações, consulte Introdução à avaliação de LLMs.
Observação importante
Não confunda o sucesso do modelo com sucesso comercial. Em outras palavras, um modelo com métricas excelentes não garante o sucesso comercial.
Muitos engenheiros habilidosos podem criar modelos com métricas impressionantes. Treinar um modelo bom o suficiente normalmente não é o problema. Em vez disso, o modelo não melhora a métrica de negócios. Um projeto de ML pode ser destinado ao fracasso por um desalinhamento entre as métricas de negócios e do modelo.