A acurácia é uma métrica para avaliar modelos de classificação. Internamente, a precisão é a fração das previsões que o modelo acertou. Formalmente, a precisão tem a seguinte definição:
Para classificação binária, a acurácia também pode ser calculada em termos de positivos e negativos, da seguinte maneira:
Em que TP = Verdadeiros positivos, TN = Verdadeiros negativos, FP = Falsos positivos e FN = Falsos negativos.
Vamos tentar calcular a acurácia do modelo a seguir que classificou 100 tumores como malignante (a classe positiva) ou benign (a classe negativa):
Verdadeiro positivo (VP):
|
Falso positivo (FP):
|
Falso negativo (FN):
|
Verdadeiro negativo (VN):
|
A acurácia é de 0,91, ou 91% (91 previsões corretas de 100 exemplos totais). Isso significa que o classificador de tumor está fazendo um ótimo trabalho para identificar malignidades, certo?
Na verdade, vamos fazer uma análise mais precisa dos positivos e negativos para obter mais insights sobre o desempenho do nosso modelo.
Dos 100 exemplos de tumor, 91 são benignos (90 TNs e 1 FP) e 9 são malignos (1 TP e 8 FNs).
Dos 91 tumores benignos, o modelo identifica corretamente 90 como beninos. Isso é positivo. No entanto, dos 9 tumores malignos, o modelo identifica apenas 1 como maligno, um resultado terrível, já que 8 de 9 malignidades não são diagnosticadas.
Embora a precisão de 91% possa parecer boa à primeira vista, outro modelo de classificador de tumor que sempre prevê o benigno alcançaria exatamente a mesma precisão (91/100 previsões corretas) nos nossos exemplos. Em outras palavras, nosso modelo não é melhor do que um que não tem capacidade preditiva de distinguir os tumors malignos dos tumores benignos.
A precisão por si só não conta a história completa quando você está trabalhando com um conjunto de dados desequilibrado, como este, em que há uma diferença significativa entre o número de rótulos positivos e negativos.
Na próxima seção, veremos duas métricas melhores para avaliar problemas de desequilíbrio de classes: precisão e recall.