Precisión
La precisión intenta responder a la siguiente pregunta:
¿Qué proporción de identificaciones positivas fue correcta?
La precisión se define de la siguiente manera:
Calculemos la precisión de nuestro modelo de AA en la sección anterior que analiza tumores:
Verdaderos positivos (VP): 1 | Falsos positivos (FP): 1 |
Falsos negativos (FN): 8 | Verdaderos negativos (VN): 90 |
Nuestro modelo tiene una precisión de 0.5, es decir, cuando predice que un tumor es maligno, es correcto el 50% de las veces.
Recuperación
La recuperación intenta responder a la siguiente pregunta:
¿Qué proporción de positivos reales se identificó en forma correcta?
Desde el punto de vista matemático, la recuperación se define de la siguiente manera:
Calculemos la recuperación de nuestro clasificador de tumores:
Verdaderos positivos (VP): 1 | Falsos positivos (FP): 1 |
Falsos negativos (FN): 8 | Verdaderos negativos (VN): 90 |
Nuestro modelo tiene una recuperación de 0.11; en otras palabras, identifica correctamente el 11% de los tumores malignos.
Precisión y recuperación: una lucha incesante
Para evaluar completamente la efectividad de un modelo, debes examinar la precisión y la recuperación. Lamentablemente, la precisión y la recuperación suelen ser tensas. Es decir, la mejora de la precisión suele reducir la recuperación, y viceversa. Para explorar esta noción, observa la siguiente figura, que muestra 30 predicciones realizadas por un modelo de clasificación de correo electrónico. Las que se encuentran a la derecha del umbral de clasificación se clasifican como "spam", mientras que las de la izquierda se clasifican como "no es spam".
Figura 1 Clasificación de mensajes de correo electrónico como spam o no spam
Calculemos la precisión y la recuperación en función de los resultados que se muestran en la Figura 1:
Verdaderos positivos (VP): 8 | Falsos positivos (FP): 2 |
Falsos negativos (FN): 3 | Verdaderos negativos (VN): 17 |
La precisión mide el porcentaje de correos electrónicos marcados como spam que se clasificaron correctamente, es decir, el porcentaje de puntos a la derecha de la línea del umbral que aparecen en verde en la Figura 1:
La recuperación mide el porcentaje de correos electrónicos reales que se clasificaron correctamente, es decir, el porcentaje de puntos verdes que aparecen a la derecha de la línea del umbral en la Figura 1:
En la figura 2, se ilustra el efecto que tiene aumentar el umbral de clasificación.
Figura 2: Aumento del umbral de clasificación.
La cantidad de falsos positivos disminuye, pero los falsos negativos aumentan. Como resultado, la precisión aumenta, mientras que la recuperación disminuye:
Verdaderos positivos (VP): 7 | Falsos positivos (FP): 1 |
Falsos negativos (FN): 4 | Verdaderos negativos (VN): 18 |
Por el contrario, la figura 3 ilustra el efecto de disminuir el umbral de clasificación (de su posición original en la figura 1).
Figura 3: Disminuye el umbral de clasificación.
Los falsos positivos aumentan y los falsos negativos disminuyen. Como resultado, esta vez la precisión disminuye y la recuperación aumenta:
Verdaderos positivos (VP): 9 | Falsos positivos (FP): 3 |
Falsos negativos (FN): 2 | Verdaderos negativos (VN): 16 |
Se desarrollaron varias métricas que se basan tanto en la precisión como en la recuperación. Por ejemplo, consulta Puntuación F1.