Classificação: precisão, recall, precisão e métricas relacionadas

Verdadeiros e falsos positivos e negativos são usados para calcular várias métricas para avaliar modelos. Quais métricas de avaliação são mais significativo depende do modelo e da tarefa específica, o custo de diferentes classificações incorretas e se o conjunto de dados está equilibrado ou desequilibradas.

Todas as métricas nesta seção são calculadas em um único limite fixo, e mudar quando o limite mudar. Muitas vezes, o usuário ajusta limite para otimizar uma dessas métricas.

Precisão

Acurácia é a proporção de todas classificações corretas, sejam elas positivas ou negativas. É matematicamente definido como:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

No exemplo de classificação de spam, a precisão mede a fração de todos os e-mails classificados corretamente.

Um modelo perfeito teria zero falsos positivos e zero falsos negativos portanto, uma acurácia de 1,0 ou 100%.

Como incorpora todos os quatro resultados da matriz de confusão (VP, FP, VN, FN), considerando um conjunto de dados, com números semelhantes de exemplos em ambas as classes, a acurácia pode servem como uma medida aproximada da qualidade do modelo. Por esse motivo, muitas vezes é a métrica de avaliação padrão usada para modelos genéricos ou não especificados para realizar tarefas genéricas ou não especificadas.

No entanto, quando o conjunto de dados está desequilibrado, ou quando um tipo de erro (FN ou FP) custa mais do que outro, que é na maioria das aplicações do mundo real, é melhor otimizar para um dos as outras métricas.

Para conjuntos de dados muito desequilibrados, em que uma classe aparece muito raramente, digamos 1% dos por vez, um modelo que prevê 100% negativo do tempo teria uma pontuação de 99% a acurácia, apesar de serem inúteis.

Recall, ou taxa de verdadeiro positivo

A taxa de verdadeiro positivo (TPR, na sigla em inglês), ou a proporção de todos os positivos reais que foram classificados corretamente como positivos, também é conhecido como recall.

Recall é definido matematicamente como:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Falsos negativos são verdadeiros positivos que foram classificados incorretamente como negativos, o que e é por isso que eles aparecem no denominador. No exemplo de classificação de spam, o recall mede a fração de e-mails de spam que foram corretamente classificados como spam. É por isso que outro nome para o recall é probabilidade de detecção: ela responde à pergunta "Que fração de e-mails de spam são detectados por este modelo?".

Um modelo hipotético perfeito teria zero falsos negativos e, recall (TPR) de 1,0, ou seja, uma taxa de detecção de 100%.

Em um conjunto de dados desequilibrado em que o número de positivos reais é muito, Baixo, digamos que um ou dois exemplos no total, o recall seja menos significativo e menos útil como uma métrica.

Taxa de falso positivo

A taxa de falsos positivos (FPR, na sigla em inglês). é a proporção de todos os negativos reais que foram classificados incorretamente como positivos, também conhecida como probabilidade de alarme falso. É matematicamente definido como:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Falsos positivos são verdadeiros negativos que foram classificados incorretamente, e é por isso que eles aparecem no denominador. No exemplo de classificação de spam, a FPR mede a fração de e-mails legítimos que foram classificados incorretamente como spam ou a a taxa de alarmes falsos do modelo.

Um modelo perfeito teria zero falso positivo e, portanto, uma FPR de 0,0. ou seja, uma taxa de alarme falso de 0%.

Em um conjunto de dados desequilibrado em que o número de negativos reais é muito, Baixo, digamos, 1 ou 2 exemplos no total, FPR é menos significativo e menos útil como uma métrica.

Precisão

Precisão é a proporção de todas as classificações positivas do modelo que são realmente positivas. Isso é matematicamente definido como:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

No exemplo de classificação de spam, a precisão mede a fração de e-mails classificadas como spam, mas na verdade eram spam.

Um modelo hipotético perfeito teria zero falsos positivos e, com precisão de 1,0.

Em um conjunto de dados desequilibrado em que o número de positivos reais é muito, baixa, digamos que um ou dois exemplos no total, a precisão seja menos significativa e menos útil como uma métrica.

A precisão melhora à medida que os falsos positivos diminuem, enquanto o recall melhora quando e os falsos negativos. Mas, como vimos na seção anterior, aumentar o limiar de classificação tende a diminuir o número de falsos positivos e aumentar o número de falsos negativos, enquanto diminuir o limite tem efeitos opostos. Como resultado, a precisão e o recall costumam mostrar um inverso a relação entre eles e melhorar um deles piora o outro.

Escolha de métricas e compensações

As métricas que você escolhe priorizar ao avaliar o modelo e a escolha de um limite depende dos custos, benefícios e riscos do um problema específico. No exemplo de classificação de spam, muitas vezes isso o sentido de priorizar o recall, anotando todos os e-mails de spam ou precisão, tentando garantir que os e-mails marcados como spam sejam de fato spam ou alguns equilíbrio dos dois, acima de algum nível mínimo de precisão.

Métrica Orientação
Precisão

Usar como um indicador aproximado do modelo progresso/convergência do treinamento para conjuntos de dados equilibrados.

Para o desempenho do modelo, use somente em combinação com outras métricas.

Evite conjuntos de dados desequilibrados. Use outra métrica.

Recall
(taxa de verdadeiro positivo)
Use quando os falsos negativos forem mais caros do que falsos positivos.
Taxa de falso positivo Use quando os falsos positivos forem mais caros do que os falsos negativos.
Precisão Use quando for muito importante previsões positivas sejam precisas.

(Opcional, avançado) Pontuação F1

A pontuação F1 é a média harmônica (uma e meio) de precisão e recall.

Matematicamente, ele é dado por:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Essa métrica equilibra a importância da precisão e do recall e é porque é melhor para a acurácia em conjuntos de dados com desequilíbrio de classes. Quando a precisão e recall têm pontuações perfeitas de 1,0, F1 também terá uma pontuação perfeita de 1,0. De modo mais amplo, quando precisão e recall têm valores próximos, F1 vai para se aproximar do valor deles. Quando a precisão e o recall estão distantes, F1 vai será similar à métrica que for pior.

Exercício: testar seu conhecimento

Um modelo gera 5 VP, 6 VN, 3 FP e 2 FN. Calcule o recall.
0,714
O recall é calculado como [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
O recall considera todos os positivos reais, mas não todos corretos. classificações. A fórmula do recall é [\frac{TP}{TP+FN}].
0,625
O recall considera todos os aspectos positivos de fato, e não todos positivos classificações. A fórmula do recall é [\frac{TP}{TP+FN}]
Um modelo gera 3 VP, 4 VN, 2 FP e 1 FN. Calcule a precisão.
0,6
A precisão é calculada como [\frac{TP}{TP+FP}=\frac{3}{5}].
0,75
A precisão considera todas as classificações positivas, não todas positivos de fato. A fórmula da precisão é [\frac{TP}{TP+FP}].
0,429
A precisão considera todas as classificações positivas, não todas as classificações corretas. A fórmula da precisão é [\frac{TP}{TP+FP}]
Você está criando um classificador binário que verifica fotos de armadilhas de insetos pela presença de uma espécie invasora perigosa. Se o modelo detectar espécie, o entomologista (cientista de insetos) de plantão é notificado. Adiantada detecção desse inseto é fundamental para evitar uma infestação. Um alarme falso (falso positivo) é fácil de tratar: o entomologista vê que a foto tiver sido classificada incorretamente e a marcará como tal. Supondo que um valor aceitável nível de precisão, para qual métrica este modelo deve ser otimizado?
Recall
Neste cenário, alarmes falsos (FP) têm baixo custo e negativos são altamente caros, por isso faz sentido maximizar o recall, ou a probabilidade de detecção de ameaças.
Taxa de falsos positivos (FPR, na sigla em inglês)
Neste cenário, os alarmes falsos (FP) têm baixo custo. Tentando minimizá-los com o risco de perder positivos reais não faz sentido.
Precisão
Nesse cenário, os alarmes falsos (FP) não são especialmente prejudiciais, então tentar melhorar a exatidão das classificações positivas não faz sentido.