En la sección anterior, se presentó un conjunto de métricas del modelo, todas calculadas a un nivel único valor de umbral de clasificación. Pero si quieres evaluar un la calidad del modelo en todos los umbrales posibles, necesitas herramientas diferentes.
Curva de característica operativa del receptor (ROC)
La curva ROC es una representación visual del rendimiento del modelo en todos los umbrales. La versión larga del nombre, característica operativa del receptor, es una retención. de la detección de radares de la Segunda Guerra Mundial.
La curva ROC se dibuja calculando la tasa de verdaderos positivos (TPR) y una tasa de falsos positivos (FPR) en cada umbral posible (en la práctica, al intervalos seleccionados), luego se grafica la TPR sobre la FPR. Un modelo perfecto que en algún umbral tiene una TPR de 1.0 y una FPR de 0.0, puede estar representado por un punto en (0, 1) si se ignoran todos los demás umbrales, o bien de la siguiente manera:
Área bajo la curva (AUC)
El área bajo la curva ROC (AUC) representa la probabilidad de que el modelo, si se da un ejemplo positivo y negativo elegido al azar, clasificará el positivo mayor que el negativo.
El modelo perfecto anterior, que contiene un cuadrado con lados de longitud 1, tiene un área bajo la curva (AUC) de 1.0. Esto significa que hay un 100% de probabilidades de que el modelo clasificará de manera correcta un ejemplo positivo elegido al azar más alto que un ejemplo negativo elegido al azar. En otras palabras, analizar la expansión de puntos de datos inferiores, el AUC indica la probabilidad de que el modelo coloque un cuadrado elegido al azar a la derecha de un círculo elegido al azar, independientemente de en la que se establece el umbral.
En términos más concretos, un clasificador de spam con AUC de 1.0 siempre asigna a un correo electrónico spam aleatorio una mayor probabilidad de ser spam que un correo electrónico legítimo al azar. La clasificación real de cada correo electrónico depende del umbral que elijas.
Para un clasificador binario, un modelo que realiza exactamente igual de bien como suposiciones o predicciones aleatorias lanzamiento de monedas tiene una ROC, que es una línea diagonal de (0,0) a (1,1). El AUC es 0.5, que representa un 50% de probabilidad de clasificar correctamente un positivo aleatorio y ejemplo negativo.
En el ejemplo del clasificador de spam, un clasificador de spam con un AUC de 0.5 asigna un correo electrónico de spam aleatorio tiene más probabilidades de ser spam que uno aleatorio correo electrónico legítimo solo la mitad de las veces.
(Opcional, avanzado) Curva de precisión-recuperación
El AUC y la ROC funcionan bien para comparar modelos cuando el conjunto de datos es más o menos equilibrados entre clases. Cuando el conjunto de datos está desequilibrado, precisión-recuperación de las curvas de visión general (PRC) y el área debajo de ellas pueden ofrecer una mejor comparación visualización del rendimiento del modelo. Las curvas de precisión-recuperación se crean la precisión en el eje Y y la recuperación en el eje X en todos umbrales.
AUC y ROC para elegir el modelo y el umbral
El AUC es una medida útil para comparar el rendimiento de dos modelos diferentes siempre y cuando el conjunto de datos esté equilibrado. (Consulta Curva de precisión-recuperación, arriba, para conjuntos de datos desequilibrados). El modelo con mayor área por la curva suele ser la mejor.
Los puntos de una curva ROC más cercanos a (0,1) representan un rango de umbrales de mejor rendimiento para el modelo determinado. Como se explicó en el Umbrales, Matriz de confusión y Elección de métricas y compensaciones el umbral que elijas dependerá de la métrica que sea más importante el caso de uso específico. Considera los puntos A, B y C en el siguiente diagrama, cada uno de los cuales representa un umbral:
Si los falsos positivos (falsas alarmas) son muy costosos, tiene sentido elige un umbral que dé una FPR más baja, como el que se encuentra en el punto A, incluso si TPR se reduce. En cambio, si los falsos positivos son económicos y los falsos negativos (verdaderos positivos omitidos) es muy costoso, el umbral para el punto C, que maximiza la TPR, puede ser preferible. Si los costos son aproximadamente equivalentes, punto B puede ofrecer el mejor equilibrio entre TPR y FPR.
A continuación, se muestra la curva ROC para los datos que vimos antes:
Ejercicio: Comprueba tus conocimientos
Pregunta adicional (opcional, avanzada)
Imagina una situación en la que es mejor dejar que algo de spam llegue al a la carpeta Recibidos que a enviar un correo electrónico esencial para la empresa a la carpeta de spam. que entrené un clasificador de spam para esta situación en la que la clase positiva es spam y la clase negativa no lo es. ¿Cuál de los siguientes puntos en la curva ROC para tu clasificador es preferible?