Clasificación: Exactitud, recuperación, precisión y métricas relacionadas

Los verdaderos y falsos positivos y negativos se usan para calcular varias métricas para evaluar modelos. ¿Qué métricas de evaluación son las más significativo depende del modelo específico, la tarea específica, el costo de diferentes clasificaciones erróneas y si el conjunto de datos está equilibrado desequilibradas.

Todas las métricas de esta sección se calculan en un único umbral fijo y cuando cambia el umbral. Muy a menudo, el usuario ajusta la para optimizar una de estas métricas.

Precisión

La exactitud es la proporción de todos que fueron correctas, ya sean positivas o negativas. Sí matemáticamente definido como:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

En el ejemplo de clasificación de spam, la exactitud mide la fracción de todos correos electrónicos correctamente clasificados.

Un modelo perfecto no tendría ningún falso positivo ni ningún falso negativo, por lo tanto, una exactitud de 1.0, o 100%.

Debido a que incorpora los cuatro resultados del matriz de confusión (VP, FP, VN, FN), según un valor equilibrado con números similares de ejemplos en ambas clases, la exactitud puede sirven como una medida general de la calidad del modelo. Por esta razón, a menudo es la métrica de evaluación predeterminada que se usa para modelos genéricos o no especificados llevar a cabo tareas genéricas o no especificadas.

Sin embargo, cuando el conjunto de datos está desequilibrado, o en los que un tipo de error (FN o FP) es más costoso que el otro, lo que en la mayoría de las aplicaciones del mundo real, es mejor realizar optimizaciones para una de las otras métricas.

Para conjuntos de datos muy desequilibrados, en los que una clase aparece muy rara vez, digamos que el 1% de el tiempo, un modelo que predice el 100% negativo del tiempo obtendría una puntuación del 99% en exactitud, a pesar de ser inútil.

Recuperación o tasa de verdaderos positivos

La tasa de verdaderos positivos (TPR) o la proporción de todos los positivos reales que se clasificaron correctamente como positivos, también se conoce como recuperación.

La recuperación se define matemáticamente de la siguiente manera:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Los falsos negativos son positivos reales que se clasificaron erróneamente como negativos, es por qué aparecen en el denominador. En el ejemplo de clasificación de spam, la recuperación mide la fracción de correos electrónicos de spam que se clasificaron correctamente como spam. Por eso otro nombre para la recuperación es probabilidad de detección: responde a la pregunta "¿Qué fracción de los correos electrónicos de spam detecta este de la empresa?".

Un modelo hipotético perfecto no tendría ningún falso negativo y, por lo tanto, recuperación (TPR) de 1.0, es decir, una tasa de detección del 100%.

En un conjunto de datos desequilibrados donde el número de positivos reales es muy, muy baja, digamos 1 o 2 ejemplos en total, la recuperación es menos significativa y menos útil como métrica.

Tasa de falsos positivos

La tasa de falsos positivos (FPR) es la proporción de todos los negativos reales que se clasificaron de manera incorrecta como positivos, lo que también se conoce como probabilidad de falsa alarma. Sí matemáticamente definido como:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Los falsos positivos son negativos reales que se clasificaron de forma incorrecta, por eso aparecen en el denominador. En el ejemplo de clasificación de spam, la FPR mide la fracción de correos electrónicos legítimos que se clasificaron por error como spam la tasa de falsas alarmas del modelo.

Un modelo perfecto no tendría ningún falso positivo y, por lo tanto, una FPR de 0.0 es decir, una tasa de falsas alarmas del 0%.

En un conjunto de datos desequilibrado donde el número de negativos reales es muy, muy baja, digamos 1 o 2 ejemplos en total, la FPR es menos significativa y menos útil como métrica.

Precisión

Precisión es la proporción de todas las clasificaciones positivas del modelo que son realmente positivas. Se define matemáticamente de la siguiente manera:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

En el ejemplo de la clasificación de spam, la precisión mide la fracción de correos electrónicos clasificados como spam que, en realidad, eran spam.

Un modelo hipotético perfecto no tendría ningún falso positivo y, por lo tanto, precisión de 1.0.

En un conjunto de datos desequilibrados donde el número de positivos reales es muy, muy baja, por ejemplo, 1 o 2 ejemplos en total, la precisión es menos significativa y menos útil como métrica.

La precisión mejora a medida que disminuyen los falsos positivos, mientras que la recuperación mejora cuando disminuyen los falsos negativos. Sin embargo, como se vio en la sección anterior, aumentar los el umbral de clasificación tiende a disminuir el número de falsos positivos y aumentar el número de falsos negativos, mientras que disminuir el umbral tiene efectos opuestos. Como resultado, la precisión y la recuperación a menudo muestran una relación inversa en la que mejorar uno de ellos empeora al otro.

Pruébalo:

¿Qué significa NaN en las métricas?

NaN, o “no es un número”, aparece cuando se divide por 0, lo que puede ocurrir con cualquiera de estas métricas. Cuando tanto VP como FP son 0, por ejemplo, el de precisión tiene 0 en el denominador, lo que da como resultado NaN. Mientras que y, en algunos casos, NaN puede indicar un rendimiento perfecto. reemplazada por una puntuación de 1.0, también puede provenir de un modelo que inútiles. Por ejemplo, un modelo que nunca predice resultados positivos tendría 0 VP. y 0 FP y, por lo tanto, un cálculo de su precisión daría como resultado un NaN.

Elección de métricas y compensaciones

Las métricas que elijas priorizar cuando evalúes el modelo y elegir un umbral dependen de los costos, beneficios y riesgos de la problema específico. En el ejemplo de clasificación de spam, a menudo sentido priorizar la recuperación, conseguir todos los correos electrónicos de spam o la precisión, asegurarse de que los correos electrónicos etiquetados como spam sean realmente spam, o bien el equilibrio entre los dos, por encima de algún nivel de precisión mínimo.

Métrica Orientación
Precisión

Usar como indicador aproximado del modelo el progreso o la convergencia del entrenamiento para conjuntos de datos equilibrados.

Para el rendimiento del modelo, úsalo solo en combinación con otras métricas.

Evita los conjuntos de datos desequilibrados. Considera usar otra métrica.

Recuperación
(tasa de verdaderos positivos)
Se usa cuando los falsos negativos son más más costoso que los falsos positivos.
Tasa de falsos positivos Se usa cuando hay falsos positivos son más costosas que los falsos negativos.
Precisión Úsalo cuando sea muy importante para predicciones positivas para ser precisos.

Puntuación F1 (opcional, avanzada)

La puntuación F1 es la media armónica (un (tipo de promedio) de precisión y recuperación.

Desde el punto de vista matemático, se obtiene de la siguiente manera:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Esta métrica equilibra la importancia de la precisión y la recuperación, y es es preferible a la exactitud en conjuntos de datos con desequilibrio de clase. Cuando se usa la precisión y la recuperación tienen una puntuación perfecta de 1.0, F1 también tendrá una puntuación perfecta. de 1.0. En términos más generales, cuando la precisión y la recuperación tengan un valor cercano, F1 cerca de su valor. Cuando la precisión y la recuperación están muy alejadas, F1 ser similares a las métricas que sean peores.

Ejercicio: Comprueba tus conocimientos

Un modelo genera 5 VP, 6 VN, 3 FP y 2 FN. Calcula la recuperación.
0,714
La recuperación se calcula como [\frac{TP}{TP+FN}=\frac{5}{7}].
0,455
La recuperación considera todos los positivos reales, no todos correctos clasificaciones. La fórmula para la recuperación es [\frac{TP}{TP+FN}].
0.625
La recuperación considera todos los positivos reales, no todos positivos clasificaciones. La fórmula para la recuperación es [\frac{TP}{TP+FN}]
Un modelo genera 3 VP, 4 VN, 2 FP y 1 FN. Calcula la precisión.
0.6
La precisión se calcula como [\frac{TP}{TP+FP}=\frac{3}{5}].
0.75
La precisión tiene en cuenta todas las clasificaciones positivas, no todas positivos reales. La fórmula para la precisión es [\frac{TP}{TP+FP}].
0,429
La precisión tiene en cuenta todas las clasificaciones positivas, no todas clasificaciones correctas. La fórmula para la precisión es [\frac{TP}{TP+FP}]
Estás creando un clasificador binario que verifica fotos de trampas para insectos si hay una especie invasiva peligrosa. Si el modelo detecta la especie, se notifica al entomólogo (científico de insectos) de servicio. Adelantado la detección de este insecto es fundamental para prevenir una infestación. R Las falsas alarmas (falso positivo) son fáciles de manejar: el entomólogo ve que la foto se clasificó incorrectamente y la marca como tal. Si suponemos que se debe ¿En función de qué métrica debería optimizarse este modelo?
Recuperación
En este caso, las falsas alarmas (FP) son de bajo costo y las falsas negativos son muy costosos, por lo que tiene sentido maximizar la recuperación o la probabilidad de de detección de intrusiones.
Tasa de falsos positivos (FPR)
En esta situación, las falsas alarmas (FP) son de bajo costo. Probando para minimizarlos en el riesgo de pasar por alto positivos reales no es una sentido.
Precisión
En este caso, las falsas alarmas (FP) no son perjudicial, por lo que tratar de mejorar la precisión de las clasificaciones positivas no tiene sentido.