Los verdaderos y falsos positivos y los negativos se usan para calcular varias métricas útiles para evaluar modelos. Las métricas de evaluación que son más significativas dependen del modelo y la tarea específicos, el costo de las diferentes clasificaciones erróneas y si el conjunto de datos está equilibrado o no.
Todas las métricas de esta sección se calculan en un solo umbral fijo y cambian cuando este cambia. A menudo, el usuario ajusta el umbral para optimizar una de estas métricas.
Exactitud
La exactitud es la proporción de todas las clasificaciones que fueron correctas, ya sean positivas o negativas. Se define matemáticamente de la siguiente manera:
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
En el ejemplo de clasificación de spam, la precisión mide la fracción de todos los correos electrónicos clasificados correctamente.
Un modelo perfecto no tendría ningún falso positivo ni ningún falso negativo y, por lo tanto, tendría una precisión de 1.0 o 100%.
Debido a que incorpora los cuatro resultados de la matriz de confusión (VP, FP, TN y FN), dado un conjunto de datos equilibrado, con cantidades similares de ejemplos en ambas clases, la precisión puede servir como una medida de calidad del modelo de baja granularidad. Por este motivo, a menudo es la métrica de evaluación predeterminada que se usa para modelos genéricos o no especificados que realizan tareas genéricas o no especificadas.
Sin embargo, cuando el conjunto de datos no está equilibrado o cuando un tipo de error (FN o FP) es más costoso que el otro, que es el caso de la mayoría de las aplicaciones del mundo real, es mejor optimizar para una de las otras métricas.
En el caso de los conjuntos de datos muy desequilibrados, en los que una clase aparece muy raramente, por ejemplo, el 1% del tiempo, un modelo que predice negativo el 100% del tiempo tendría una puntuación del 99% en exactitud, a pesar de ser inútil.
Recuperación o tasa de verdaderos positivos
La tasa de verdaderos positivos (TPR), o la proporción de todos los positivos reales que se clasificaron correctamente como positivos, también se conoce como recuperación.
Matemáticamente, la recuperación se define de la siguiente manera:
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
Los falsos negativos son verdaderos positivos que se clasificaron erróneamente como negativos, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la recuperación mide la fracción de correos electrónicos de spam que se clasificaron correctamente como spam. Por eso, otro nombre para la recuperación es probabilidad de detección: responde a la pregunta “¿Qué fracción de correos electrónicos de spam detecta este modelo?”.
Un modelo hipotético perfecto no tendría ningún falso negativo y, por lo tanto, una recuperación (TPR) de 1.0, es decir, una tasa de detección del 100%.
En un conjunto de datos desequilibrado en el que la cantidad de casos positivos reales es muy baja, por ejemplo, de 1 a 2 ejemplos en total, la recuperación es menos significativa y útil como métrica.
Tasa de falsos positivos
La tasa de falsos positivos (FPR) es la proporción de todos los negativos reales que se clasificaron incorrectamente como positivos, también conocida como probabilidad de falsa alarma. Se define matemáticamente de la siguiente manera:
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
Los falsos positivos son negativos reales que se clasificaron de forma incorrecta, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la FPR mide la fracción de correos electrónicos legítimos que se clasificaron incorrectamente como spam, o la tasa de falsas alarmas del modelo.
Un modelo perfecto no tendría ningún falso positivo y, por lo tanto, una FPR de 0.0, es decir, una tasa de falsas alarmas del 0%.
En un conjunto de datos desequilibrado en el que la cantidad de ejemplos negativos reales es muy baja, por ejemplo, de 1 a 2 ejemplos en total, la FPR es menos significativa y útil como métrica.
Precisión
La precisión es la proporción de todas las clasificaciones positivas del modelo que realmente son positivas. Matemáticamente, se define de la siguiente manera:
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
En el ejemplo de clasificación de spam, la precisión mide la fracción de correos electrónicos clasificados como spam que en realidad fueron spam.
Un modelo hipotético perfecto no tendría ningún falso positivo y, por lo tanto, una precisión de 1.0.
En un conjunto de datos desequilibrado en el que la cantidad de positivos reales es muy, muy bajo (por ejemplo, de 1 a 2 ejemplos en total), la precisión es menos significativa y menos útil como métrica.
La precisión mejora a medida que disminuyen los falsos positivos, mientras que la recuperación mejora cuando disminuyen los falsos negativos. Sin embargo, como se vio en la sección anterior, aumentar el umbral de clasificación tiende a disminuir la cantidad de falsos positivos y aumentar la cantidad de falsos negativos, mientras que disminuir el umbral tiene los efectos opuestos. Como resultado, la precisión y la recuperación suelen mostrar una relación inversa, en la que mejorar uno de ellos empeora el otro.
Pruébalo tú mismo:
¿Qué significa NaN en las métricas?
NaN, o “no es un número”, aparece cuando se divide por 0, lo que puede suceder con cualquiera de estas métricas. Por ejemplo, cuando VP y FP son 0, la fórmula de precisión tiene 0 en el denominador, lo que genera NaN. Si bien, en algunos casos, NaN puede indicar un rendimiento perfecto y podría reemplazarse por una puntuación de 1.0, también puede provenir de un modelo que es prácticamente inútil. Por ejemplo, un modelo que nunca predice un resultado positivo tendría 0 VP y 0 FP, por lo que un cálculo de su precisión daría como resultado NaN.
Elección de la métrica y compensaciones
Las métricas que elijas priorizar cuando evalúes el modelo y elijas un umbral dependen de los costos, los beneficios y los riesgos del problema específico. En el ejemplo de clasificación de spam, a menudo tiene sentido priorizar la recuperación, atrapar todos los correos electrónicos de spam o la precisión, tratando de garantizar que los correos electrónicos etiquetados como spam sean, de hecho, spam, o algún equilibrio entre los dos, por encima de un nivel mínimo de precisión.
Métrica | Orientación |
---|---|
Exactitud | Úsalo como un indicador aproximado del progreso o la convergencia del entrenamiento del modelo para conjuntos de datos equilibrados. Para el rendimiento del modelo, úsalo solo en combinación con otras métricas. Evita usarlo para conjuntos de datos desequilibrados. Considera usar otra métrica. |
Recuperación (tasa de verdaderos positivos) |
Úsalo cuando los falsos negativos sean más costosos que los falsos positivos. |
Tasa de falsos positivos | Úsalo cuando los falsos positivos sean más costosos que los falsos negativos. |
Precisión | Úsalo cuando sea muy importante que las predicciones positivas sean precisas. |
Puntuación F1 (opcional, avanzada)
La puntuación F1 es la media armónica (un tipo de promedio) de la precisión y la recuperación.
Desde el punto de vista matemático, se obtiene de la siguiente manera:
Esta métrica equilibra la importancia de la precisión y la recuperación, y es preferible a la precisión para los conjuntos de datos con desequilibrio de clases. Cuando la precisión y la recuperación tengan puntuaciones perfectas de 1.0, la F1 también tendrá una puntuación perfecta de 1.0. En términos más generales, cuando la precisión y la recuperación sean similares en valor, F1 estará cerca de su valor. Cuando la precisión y la recuperación están muy separadas, F1 será similar a la métrica que sea peor.