Clasificación: Exactitud, recuperación, precisión y métricas relacionadas

Los verdaderos y falsos positivos y los negativos se usan para calcular varias métricas útiles para evaluar modelos. Las métricas de evaluación que son más significativas dependen del modelo y la tarea específicos, el costo de las diferentes clasificaciones erróneas y si el conjunto de datos está equilibrado o no.

Todas las métricas de esta sección se calculan en un solo umbral fijo y cambian cuando este cambia. A menudo, el usuario ajusta el umbral para optimizar una de estas métricas.

Exactitud

La exactitud es la proporción de todas las clasificaciones que fueron correctas, ya sean positivas o negativas. Se define matemáticamente de la siguiente manera:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

En el ejemplo de clasificación de spam, la precisión mide la fracción de todos los correos electrónicos clasificados correctamente.

Un modelo perfecto no tendría ningún falso positivo ni ningún falso negativo y, por lo tanto, tendría una precisión de 1.0 o 100%.

Debido a que incorpora los cuatro resultados de la matriz de confusión (VP, FP, TN y FN), dado un conjunto de datos equilibrado, con cantidades similares de ejemplos en ambas clases, la precisión puede servir como una medida de calidad del modelo de baja granularidad. Por este motivo, a menudo es la métrica de evaluación predeterminada que se usa para modelos genéricos o no especificados que realizan tareas genéricas o no especificadas.

Sin embargo, cuando el conjunto de datos no está equilibrado o cuando un tipo de error (FN o FP) es más costoso que el otro, que es el caso de la mayoría de las aplicaciones del mundo real, es mejor optimizar para una de las otras métricas.

En el caso de los conjuntos de datos muy desequilibrados, en los que una clase aparece muy raramente, por ejemplo, el 1% del tiempo, un modelo que predice negativo el 100% del tiempo tendría una puntuación del 99% en exactitud, a pesar de ser inútil.

Recuperación o tasa de verdaderos positivos

La tasa de verdaderos positivos (TPR), o la proporción de todos los positivos reales que se clasificaron correctamente como positivos, también se conoce como recuperación.

Matemáticamente, la recuperación se define de la siguiente manera:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Los falsos negativos son verdaderos positivos que se clasificaron erróneamente como negativos, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la recuperación mide la fracción de correos electrónicos de spam que se clasificaron correctamente como spam. Por eso, otro nombre para la recuperación es probabilidad de detección: responde a la pregunta “¿Qué fracción de correos electrónicos de spam detecta este modelo?”.

Un modelo hipotético perfecto no tendría ningún falso negativo y, por lo tanto, una recuperación (TPR) de 1.0, es decir, una tasa de detección del 100%.

En un conjunto de datos desequilibrado en el que la cantidad de casos positivos reales es muy baja, por ejemplo, de 1 a 2 ejemplos en total, la recuperación es menos significativa y útil como métrica.

Tasa de falsos positivos

La tasa de falsos positivos (FPR) es la proporción de todos los negativos reales que se clasificaron incorrectamente como positivos, también conocida como probabilidad de falsa alarma. Se define matemáticamente de la siguiente manera:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Los falsos positivos son negativos reales que se clasificaron de forma incorrecta, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la FPR mide la fracción de correos electrónicos legítimos que se clasificaron incorrectamente como spam, o la tasa de falsas alarmas del modelo.

Un modelo perfecto no tendría ningún falso positivo y, por lo tanto, una FPR de 0.0, es decir, una tasa de falsas alarmas del 0%.

En un conjunto de datos desequilibrado en el que la cantidad de ejemplos negativos reales es muy baja, por ejemplo, de 1 a 2 ejemplos en total, la FPR es menos significativa y útil como métrica.

Precisión

La precisión es la proporción de todas las clasificaciones positivas del modelo que realmente son positivas. Matemáticamente, se define de la siguiente manera:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

En el ejemplo de clasificación de spam, la precisión mide la fracción de correos electrónicos clasificados como spam que en realidad fueron spam.

Un modelo hipotético perfecto no tendría ningún falso positivo y, por lo tanto, una precisión de 1.0.

En un conjunto de datos desequilibrado en el que la cantidad de positivos reales es muy, muy bajo (por ejemplo, de 1 a 2 ejemplos en total), la precisión es menos significativa y menos útil como métrica.

La precisión mejora a medida que disminuyen los falsos positivos, mientras que la recuperación mejora cuando disminuyen los falsos negativos. Sin embargo, como se vio en la sección anterior, aumentar el umbral de clasificación tiende a disminuir la cantidad de falsos positivos y aumentar la cantidad de falsos negativos, mientras que disminuir el umbral tiene los efectos opuestos. Como resultado, la precisión y la recuperación suelen mostrar una relación inversa, en la que mejorar uno de ellos empeora el otro.

Pruébalo tú mismo:

¿Qué significa NaN en las métricas?

NaN, o “no es un número”, aparece cuando se divide por 0, lo que puede suceder con cualquiera de estas métricas. Por ejemplo, cuando VP y FP son 0, la fórmula de precisión tiene 0 en el denominador, lo que genera NaN. Si bien, en algunos casos, NaN puede indicar un rendimiento perfecto y podría reemplazarse por una puntuación de 1.0, también puede provenir de un modelo que es prácticamente inútil. Por ejemplo, un modelo que nunca predice un resultado positivo tendría 0 VP y 0 FP, por lo que un cálculo de su precisión daría como resultado NaN.

Elección de la métrica y compensaciones

Las métricas que elijas priorizar cuando evalúes el modelo y elijas un umbral dependen de los costos, los beneficios y los riesgos del problema específico. En el ejemplo de clasificación de spam, a menudo tiene sentido priorizar la recuperación, atrapar todos los correos electrónicos de spam o la precisión, tratando de garantizar que los correos electrónicos etiquetados como spam sean, de hecho, spam, o algún equilibrio entre los dos, por encima de un nivel mínimo de precisión.

Métrica Orientación
Exactitud

Úsalo como un indicador aproximado del progreso o la convergencia del entrenamiento del modelo para conjuntos de datos equilibrados.

Para el rendimiento del modelo, úsalo solo en combinación con otras métricas.

Evita usarlo para conjuntos de datos desequilibrados. Considera usar otra métrica.

Recuperación
(tasa de verdaderos positivos)
Úsalo cuando los falsos negativos sean más costosos que los falsos positivos.
Tasa de falsos positivos Úsalo cuando los falsos positivos sean más costosos que los falsos negativos.
Precisión Úsalo cuando sea muy importante que las predicciones positivas sean precisas.

Puntuación F1 (opcional, avanzada)

La puntuación F1 es la media armónica (un tipo de promedio) de la precisión y la recuperación.

Desde el punto de vista matemático, se obtiene de la siguiente manera:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Esta métrica equilibra la importancia de la precisión y la recuperación, y es preferible a la precisión para los conjuntos de datos con desequilibrio de clases. Cuando la precisión y la recuperación tengan puntuaciones perfectas de 1.0, la F1 también tendrá una puntuación perfecta de 1.0. En términos más generales, cuando la precisión y la recuperación sean similares en valor, F1 estará cerca de su valor. Cuando la precisión y la recuperación están muy separadas, F1 será similar a la métrica que sea peor.

Ejercicio: Comprueba tu comprensión

Un modelo genera 5 VP, 6 TN, 3 FP y 2 FN. Calcula la recuperación.
0.714
La recuperación se calcula como [\frac{TP}{TP+FN}=\frac{5}{7}].
0.455
La recuperación considera todos los positivos reales, no todas las clasificaciones correctas. La fórmula de la recuperación es [\frac{TP}{TP+FN}].
0.625
La recuperación considera todos los casos positivos reales, no todas las clasificaciones positivas. La fórmula de la recuperación es [\frac{TP}{TP+FN}]
Un modelo genera 3 VP, 4 VN, 2 FP y 1 FN. Calcula la precisión.
0.6
La precisión se calcula como [\frac{TP}{TP+FP}=\frac{3}{5}].
0.75
La precisión considera todas las clasificaciones positivas, no todos los positivos reales. La fórmula de la precisión es [\frac{TP}{TP+FP}].
0.429
La precisión considera todas las clasificaciones positivas, no todas las clasificaciones correctas. La fórmula de la precisión es [\frac{TP}{TP+FP}]
Estás compilando un clasificador binario que verifica las fotos de trampas para insectos para ver si hay una especie invasora peligrosa. Si el modelo detecta la especie, se notifica al entomólogo (científico de insectos) de guardia. La detección temprana de este insecto es fundamental para evitar una infestación. Una alarma falsa (falso positivo) es fácil de manejar: el entomólogo ve que la foto se clasificó de forma incorrecta y la marca como tal. Suponiendo un nivel de exactitud aceptable, ¿para qué métrica se debe optimizar este modelo?
Recuperación
En esta situación, las falsas alarmas (FP) tienen un costo bajo y los falsos negativos son muy costosos, por lo que tiene sentido maximizar la recuperación o la probabilidad de detección.
Tasa de falsos positivos (FPR)
En esta situación, las falsas alarmas (FA) son de bajo costo. Intentar minimizarlas corre el riesgo de pasar por alto positivos reales no tiene sentido.
Precisión
En esta situación, las falsas alarmas (FA) no son particularmente dañinas, por lo que no tiene sentido intentar mejorar la exactitud de las clasificaciones positivas.