Se usó la API de Cloud Translation para traducir esta página.

Clasificación: Exactitud, recuperación, precisión y métricas relacionadas

Los verdaderos y falsos positivos y negativos se usan para calcular varias métricas útiles para evaluar modelos. Las métricas de evaluación que son más significativas dependen del modelo y la tarea específicos, del costo de las diferentes clasificaciones erróneas y de si el conjunto de datos está equilibrado o no.

Todas las métricas de esta sección se calculan en un solo umbral fijo y cambian cuando este cambia. A menudo, el usuario ajusta el umbral para optimizar una de estas métricas.

Exactitud

La exactitud es la proporción de todas las clasificaciones que fueron correctas, ya sean positivas o negativas. Se define matemáticamente de la siguiente manera:

\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]

En el ejemplo de clasificación de spam, la precisión mide la fracción de todos los correos electrónicos clasificados correctamente.

Un modelo perfecto no tendría ningún falso positivo ni ningún falso negativo y, por lo tanto, tendría una precisión de 1.0 o 100%.

Debido a que incorpora los cuatro resultados de la matriz de confusión (VP, FP, TN y FN), dado un conjunto de datos equilibrado, con cantidades similares de ejemplos en ambas clases, la precisión puede servir como una medida de calidad del modelo de baja granularidad. Por este motivo, a menudo es la métrica de evaluación predeterminada que se usa para modelos genéricos o no especificados que realizan tareas genéricas o no especificadas.

Sin embargo, cuando el conjunto de datos no está equilibrado, o cuando un tipo de error (FN o FP) es más costoso que el otro, que es el caso de la mayoría de las aplicaciones del mundo real, es mejor optimizar para una de las otras métricas.

En el caso de los conjuntos de datos muy desequilibrados, en los que una clase aparece muy raramente, por ejemplo, el 1% del tiempo, un modelo que predice negativo el 100% del tiempo tendría una puntuación del 99% en exactitud, a pesar de ser inútil.

Recuperación o tasa de verdaderos positivos

La tasa de verdaderos positivos (TPR), o la proporción de todos los positivos reales que se clasificaron correctamente como positivos, también se conoce como recuperación.

Matemáticamente, la recuperación se define de la siguiente manera:

\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]

Los falsos negativos son positivos reales que se clasificaron erróneamente como negativos, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la recuperación mide la fracción de correos electrónicos de spam que se clasificaron correctamente como spam. Por eso, otro nombre para la recuperación es probabilidad de detección: responde a la pregunta “¿Qué fracción de correos electrónicos de spam detecta este modelo?”.

Un modelo hipotético perfecto no tendría ningún falso negativo y, por lo tanto, una recuperación (TPR) de 1.0, es decir, una tasa de detección del 100%.

En un conjunto de datos desequilibrado en el que la cantidad de positivos reales es muy baja, la recuperación es una métrica más significativa que la precisión, ya que mide la capacidad del modelo para identificar correctamente todas las instancias positivas. En el caso de aplicaciones como la predicción de enfermedades, es fundamental identificar correctamente los casos positivos. Por lo general, un falso negativo tiene consecuencias más graves que un falso positivo. Para ver un ejemplo concreto que compara las métricas de recuperación y exactitud, consulta las notas en la definición de recuperación.

Tasa de falsos positivos

La tasa de falsos positivos (FPR) es la proporción de todos los negativos reales que se clasificaron incorrectamente como positivos, también conocida como probabilidad de falsa alarma. Se define matemáticamente de la siguiente manera:

\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]

Los falsos positivos son negativos reales que se clasificaron de forma incorrecta, por lo que aparecen en el denominador. En el ejemplo de clasificación de spam, la FPR mide la fracción de correos electrónicos legítimos que se clasificaron incorrectamente como spam, o la tasa de falsas alarmas del modelo.

Un modelo perfecto no tendría ningún falso positivo y, por lo tanto, una FPR de 0.0, es decir, una tasa de falsas alarmas del 0%.

En un conjunto de datos desequilibrado en el que la cantidad de negativos reales es muy, muy baja, por ejemplo, de 1 a 2 ejemplos en total, la FPR es menos significativa y útil como métrica.

Precisión

La precisión es la proporción de todas las clasificaciones positivas del modelo que realmente son positivas. Se define matemáticamente de la siguiente manera:

\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]

En el ejemplo de clasificación de spam, la precisión mide la fracción de correos electrónicos clasificados como spam que realmente lo eran.

Un modelo hipotético perfecto no tendría ningún falso positivo y, por lo tanto, una precisión de 1.0.

En un conjunto de datos desequilibrado en el que la cantidad de valores positivos reales es muy baja, por ejemplo, de 1 a 2 ejemplos en total, la precisión es menos significativa y útil como métrica.

La precisión mejora a medida que disminuyen los falsos positivos, mientras que la recuperación mejora cuando disminuyen los falsos negativos. Sin embargo, como se vio en la sección anterior, aumentar el umbral de clasificación tiende a disminuir la cantidad de falsos positivos y aumentar la cantidad de falsos negativos, mientras que disminuir el umbral tiene los efectos opuestos. Como resultado, la precisión y la recuperación suelen mostrar una relación inversa, en la que mejorar uno de ellos empeora el otro.

Pruébalo por tu cuenta:

¿Qué significa NaN en las métricas?

NaN, o “no es un número”, aparece cuando se divide por 0, lo que puede suceder con cualquiera de estas métricas. Por ejemplo, cuando VP y FP son 0, la fórmula de precisión tiene 0 en el denominador, lo que genera NaN. Si bien en algunos casos NaN puede indicar un rendimiento perfecto y podría reemplazarse por una puntuación de 1.0, también puede provenir de un modelo que es prácticamente inútil. Un modelo que nunca predice un resultado positivo, por ejemplo, tendría 0 VP y 0 FP, por lo que un cálculo de su precisión daría como resultado NaN.

Elección de la métrica y compensaciones

Las métricas que elijas priorizar cuando evalúes el modelo y elijas un umbral dependen de los costos, los beneficios y los riesgos del problema específico. En el ejemplo de clasificación de spam, a menudo tiene sentido priorizar la recuperación, atrapar todos los correos electrónicos de spam o la precisión, tratando de garantizar que los correos electrónicos etiquetados como spam sean, de hecho, spam, o algún equilibrio entre los dos, por encima de un nivel mínimo de precisión.

Métrica	Orientación
Exactitud	Úsalo como un indicador aproximado del progreso o la convergencia del entrenamiento del modelo para conjuntos de datos equilibrados. Para el rendimiento del modelo, úsalo solo en combinación con otras métricas. Evita usarlos para conjuntos de datos desequilibrados. Considera usar otra métrica.
Recuperación (tasa de verdaderos positivos)	Úsalo cuando los falsos negativos sean más costosos que los falsos positivos.
Tasa de falsos positivos	Úsalo cuando los falsos positivos sean más costosos que los falsos negativos.
Precisión	Úsalo cuando sea muy importante que las predicciones positivas sean precisas.

Puntuación F1 (opcional y avanzada)

La puntuación F1 es la media armónica (un tipo de promedio) de la precisión y la recuperación.

Matemáticamente, se expresa de la siguiente manera:

\[\text{F1}=2*\frac{\text{precision * recall}}{\text{precision + recall}} = \frac{2\text{TP}}{2\text{TP + FP + FN}}\]

Esta métrica equilibra la importancia de la precisión y la recuperación, y es preferible a la precisión para los conjuntos de datos con desequilibrio de clases. Cuando la precisión y la recuperación tengan puntuaciones perfectas de 1.0, la F1 también tendrá una puntuación perfecta de 1.0. En términos más generales, cuando la precisión y la recuperación sean similares en valor, F1 estará cerca de su valor. Cuando la precisión y la recuperación estén muy separadas, F1 será similar a la métrica que sea peor.

Ejercicio: Comprueba tu comprensión

Un modelo genera 5 VP, 6 TN, 3 FP y 2 FN. Calcula la recuperación.

0.714

El recuerdo se calcula como \(\frac{TP}{TP+FN}=\frac{5}{7}\).

0.455

La recuperación considera todos los positivos reales, no todas las clasificaciones correctas. La fórmula de recuperación es \(\frac{TP}{TP+FN}\).

0.625

La recuperación considera todos los casos positivos reales, no todas las clasificaciones positivas. La fórmula de recuperación es \(\frac{TP}{TP+FN}\)

Un modelo genera 3 VP, 4 TN, 2 FP y 1 FN. Calcula la precisión.

0.6

La precisión se calcula como \(\frac{TP}{TP+FP}=\frac{3}{5}\).

0.75

La precisión considera todas las clasificaciones positivas, no todos los positivos reales. La fórmula de precisión es \(\frac{TP}{TP+FP}\).

0.429

La precisión considera todas las clasificaciones positivas, no todas las clasificaciones correctas. La fórmula de la precisión es \(\frac{TP}{TP+FP}\)

Estás compilando un clasificador binario que verifica las fotos de trampas para insectos para ver si hay una especie invasora peligrosa. Si el modelo detecta la especie, se notifica al entomólogo (científico de insectos) de guardia. La detección temprana de este insecto es fundamental para evitar una infestación. Una alarma falsa (falso positivo) es fácil de manejar: el entomólogo ve que la foto se clasificó de forma incorrecta y la marca como tal. Suponiendo un nivel de exactitud aceptable, ¿para qué métrica se debe optimizar este modelo?

Recuperación

En esta situación, las falsas alarmas (FA) son de bajo costo y los falsos negativos son muy costosos, por lo que tiene sentido maximizar la recuperación o la probabilidad de detección.

Tasa de falsos positivos (FPR)

En esta situación, las falsas alarmas (FA) son de bajo costo. No tiene sentido intentar minimizarlos con el riesgo de perder los positivos reales.

Precisión

En esta situación, las falsas alarmas (FA) no son particularmente dañinas, por lo que no tiene sentido intentar mejorar la exactitud de las clasificaciones positivas.

Umbrales y la matriz de confusión (12 min)

ROC y AUC (10 min)

Clasificación: Exactitud, recuperación, precisión y métricas relacionadas Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Exactitud

Recuperación o tasa de verdaderos positivos

Tasa de falsos positivos

Precisión

¿Qué significa NaN en las métricas?

Elección de la métrica y compensaciones

Puntuación F1 (opcional y avanzada)

Ejercicio: Comprueba tu comprensión

Clasificación: Exactitud, recuperación, precisión y métricas relacionadas