Classificação: verificar seu conhecimento (ROC e AUC)
ROC e AUC
Confira as opções abaixo.
Quais das curvas ROC a seguir geram valores de AUC maiores do que 0,5?
Esta é a melhor curva ROC possível, já que classifica todos os positivos
acima de todos os negativos. Ela tem uma AUC de 1,0.
Na prática, se você tiver um classificador "perfect" com uma AUC de 1.0,
será suspeito, já que isso provavelmente indica um bug no seu modelo. Por exemplo,
você pode ter overfitting nos dados de treinamento ou os dados do rótulo podem ser replicados
em um dos recursos.
Esta é a pior curva ROC possível.Ela classifica todos os negativos acima de todos os positivos e tem
uma AUC de 0, 0. Se você inverter todas as previsões (voltar os negativos para positivos e
os positivos para negativos), você terá um classificador perfeito!
Essa curva ROC tem uma AUC de 0,5, o que significa que ela classifica um exemplo positivo aleatório mais alto do que um exemplo negativo aleatório 50% das vezes. Assim, o modelo de classificação correspondente é basicamente inútil, porque sua capacidade preditiva não é melhor do que a suposição aleatória.
Essa curva ROC tem uma AUC entre 0,5 e 1,0, o que significa que ela classifica um exemplo positivo aleatório mais alto do que um exemplo negativo aleatório em mais de 50% das vezes. Os valores de AUC de classificação binária real
geralmente se enquadram nesse intervalo.
Essa curva ROC tem uma AUC entre 0 e 0,5, o que significa que ela classifica um exemplo positivo positivo mais alto do que um exemplo negativo aleatório menos de 50% das vezes.
Na verdade, o modelo correspondente é pior do que a suposição aleatória. Uma
curva ROC como essa geralmente indica que há um bug nos seus dados.
AUC e previsões de escalonamento
Confira as opções abaixo.
Como multiplicar todas as previsões de um determinado modelo por 2,0 (por
exemplo, se o modelo prevê 0,4, multiplicamos por 2,0 para ter uma previsão
de 0,8) e alteramos o desempenho do modelo, medido pela AUC?
Não houve alterações. A AUC só se importa com pontuações de previsão relativas.
Sim, a AUC é baseada nas previsões relativas. Portanto, a transformação das previsões que preserva a classificação relativa não tem efeito na AUC.
Isso claramente não é o caso de outras métricas, como erro quadrático, perda de registros ou viés de previsão (discutidos posteriormente).
Isso faria com que a AUC fosse terrível, já que os valores de previsão estão muito distantes.
O interessante é que, mesmo que os valores de previsão sejam diferentes (e provavelmente mais distantes da verdade), multiplicar todos eles por 2,0 manteria a ordem relativa dos valores de previsão iguais. Como a AUC se preocupa apenas com classificações relativas, ela não é afetada por nenhuma escala simples de previsões.
A AUC ficaria melhor, porque os valores de previsão estão mais distantes entre si.
A quantidade de propagação entre as previsões não afeta a AUC. Mesmo uma pontuação de previsão para um verdadeiro positivo exibido aleatoriamente é apenas um pequeno épsilon maior do que um negativo exibido aleatoriamente, o que contará como um sucesso que contribui para a pontuação AUC geral.