Verdadeiros e falsos positivos e negativos são usados para calcular várias métricas para avaliar modelos. Quais métricas de avaliação são mais significativo depende do modelo e da tarefa específica, o custo de diferentes classificações incorretas e se o conjunto de dados está equilibrado ou desequilibradas.
Todas as métricas nesta seção são calculadas em um único limite fixo, e mudar quando o limite mudar. Muitas vezes, o usuário ajusta limite para otimizar uma dessas métricas.
Precisão
Acurácia é a proporção de todas classificações corretas, sejam elas positivas ou negativas. É matematicamente definido como:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
No exemplo de classificação de spam, a precisão mede a fração de todos os e-mails classificados corretamente.
Um modelo perfeito teria zero falsos positivos e zero falsos negativos portanto, uma acurácia de 1,0 ou 100%.
Como incorpora todos os quatro resultados da matriz de confusão (VP, FP, VN, FN), considerando um conjunto de dados, com números semelhantes de exemplos em ambas as classes, a acurácia pode servem como uma medida aproximada da qualidade do modelo. Por esse motivo, muitas vezes é a métrica de avaliação padrão usada para modelos genéricos ou não especificados para realizar tarefas genéricas ou não especificadas.
No entanto, quando o conjunto de dados está desequilibrado, ou quando um tipo de erro (FN ou FP) custa mais do que outro, que é na maioria das aplicações do mundo real, é melhor otimizar para um dos as outras métricas.
Para conjuntos de dados muito desequilibrados, em que uma classe aparece muito raramente, digamos 1% dos por vez, um modelo que prevê 100% negativo do tempo teria uma pontuação de 99% a acurácia, apesar de serem inúteis.
Recall, ou taxa de verdadeiro positivo
A taxa de verdadeiro positivo (TPR, na sigla em inglês), ou a proporção de todos os positivos reais que foram classificados corretamente como positivos, também é conhecido como recall.
Recall é definido matematicamente como:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Falsos negativos são verdadeiros positivos que foram classificados incorretamente como negativos, o que e é por isso que eles aparecem no denominador. No exemplo de classificação de spam, o recall mede a fração de e-mails de spam que foram corretamente classificados como spam. É por isso que outro nome para o recall é probabilidade de detecção: ela responde à pergunta "Que fração de e-mails de spam são detectados por este modelo?".
Um modelo hipotético perfeito teria zero falsos negativos e, recall (TPR) de 1,0, ou seja, uma taxa de detecção de 100%.
Em um conjunto de dados desequilibrado em que o número de positivos reais é muito, Baixo, digamos que um ou dois exemplos no total, o recall seja menos significativo e menos útil como uma métrica.
Taxa de falso positivo
A taxa de falsos positivos (FPR, na sigla em inglês). é a proporção de todos os negativos reais que foram classificados incorretamente como positivos, também conhecida como probabilidade de alarme falso. É matematicamente definido como:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Falsos positivos são verdadeiros negativos que foram classificados incorretamente, e é por isso que eles aparecem no denominador. No exemplo de classificação de spam, a FPR mede a fração de e-mails legítimos que foram classificados incorretamente como spam ou a a taxa de alarmes falsos do modelo.
Um modelo perfeito teria zero falso positivo e, portanto, uma FPR de 0,0. ou seja, uma taxa de alarme falso de 0%.
Em um conjunto de dados desequilibrado em que o número de negativos reais é muito, Baixo, digamos, 1 ou 2 exemplos no total, FPR é menos significativo e menos útil como uma métrica.
Precisão
Precisão é a proporção de todas as classificações positivas do modelo que são realmente positivas. Isso é matematicamente definido como:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
No exemplo de classificação de spam, a precisão mede a fração de e-mails classificadas como spam, mas na verdade eram spam.
Um modelo hipotético perfeito teria zero falsos positivos e, com precisão de 1,0.
Em um conjunto de dados desequilibrado em que o número de positivos reais é muito, baixa, digamos que um ou dois exemplos no total, a precisão seja menos significativa e menos útil como uma métrica.
A precisão melhora à medida que os falsos positivos diminuem, enquanto o recall melhora quando e os falsos negativos. Mas, como vimos na seção anterior, aumentar o limiar de classificação tende a diminuir o número de falsos positivos e aumentar o número de falsos negativos, enquanto diminuir o limite tem efeitos opostos. Como resultado, a precisão e o recall costumam mostrar um inverso a relação entre eles e melhorar um deles piora o outro.
Faça um teste:
O que o NaN significa nas métricas?
NaN, ou "not a number", aparece na divisão por 0, o que pode acontecer com qualquer uma dessas métricas. Quando VP e FP forem ambos 0, por exemplo, fórmula de precisão tem 0 no denominador, resultando em NaN. em alguns casos, o NaN pode indicar desempenho perfeito e pode ser substituído por uma pontuação de 1,0, também pode vir de um modelo que é praticamente inúteis. Um modelo que nunca prevê positivos, por exemplo, teria 0 VPs. e 0 FPs. Assim, um cálculo de precisão resultaria em NaN.
Escolha de métricas e compensações
As métricas que você escolhe priorizar ao avaliar o modelo e a escolha de um limite depende dos custos, benefícios e riscos do um problema específico. No exemplo de classificação de spam, muitas vezes isso o sentido de priorizar o recall, anotando todos os e-mails de spam ou precisão, tentando garantir que os e-mails marcados como spam sejam de fato spam ou alguns equilíbrio dos dois, acima de algum nível mínimo de precisão.
Métrica | Orientação |
---|---|
Precisão | Usar como um indicador aproximado do modelo progresso/convergência do treinamento para conjuntos de dados equilibrados. Para o desempenho do modelo, use somente em combinação com outras métricas. Evite conjuntos de dados desequilibrados. Use outra métrica. |
Recall (taxa de verdadeiro positivo) |
Use quando os falsos negativos forem mais caros do que falsos positivos. |
Taxa de falso positivo | Use quando os falsos positivos forem mais caros do que os falsos negativos. |
Precisão | Use quando for muito importante previsões positivas sejam precisas. |
(Opcional, avançado) Pontuação F1
A pontuação F1 é a média harmônica (uma e meio) de precisão e recall.
Matematicamente, ele é dado por:
Essa métrica equilibra a importância da precisão e do recall e é porque é melhor para a acurácia em conjuntos de dados com desequilíbrio de classes. Quando a precisão e recall têm pontuações perfeitas de 1,0, F1 também terá uma pontuação perfeita de 1,0. De modo mais amplo, quando precisão e recall têm valores próximos, F1 vai para se aproximar do valor deles. Quando a precisão e o recall estão distantes, F1 vai será similar à métrica que for pior.