Umbrales y matriz de confusión

Supongamos que tienes un modelo de regresión logística para la detección de correo electrónico no deseado predice un valor entre 0 y 1, lo que representa la probabilidad de que un determinado correo electrónico es spam. Una predicción de 0.50 indica una probabilidad del 50% de que el correo electrónico sea spam, una predicción de 0.75 indica una probabilidad del 75% de que el correo electrónico sea spam etcétera.

Quieres implementar este modelo en una aplicación de correo electrónico para filtrar el spam. en una carpeta de correo electrónico separada. Pero, para hacerlo, necesitas convertir la capa de salida numérica (p.ej., 0.75) en una de dos categorías: "spam" o "no spam".

Para realizar esta conversión, debe elegir un umbral de probabilidad, denominado umbral de clasificación. Luego, se asignan los ejemplos con una probabilidad superior al valor de umbral a la clase positiva, la clase que estás probando (aquí, spam). Los ejemplos con un probabilidad se asignan a la clase negativa, la clase alternativa (aquí, not spam).

Haz clic aquí para obtener más detalles sobre el umbral de clasificación

Quizás te estés preguntando, ¿qué sucede si la puntuación prevista es igual a el umbral de clasificación (por ejemplo, una puntuación de 0.5, en la que el umbral de clasificación también es de 0.5)? Manejo de este caso depende de la implementación específica elegida para la clasificación un modelo de responsabilidad compartida. Por ejemplo, las Keras la biblioteca predice la clase negativa si la puntuación y el umbral son iguales, pero otras herramientas o frameworks pueden manejar este caso. de forma diferente.

Por ejemplo, supongamos que el modelo asigna una puntuación de 0.99 a un correo electrónico y predice ese correo electrónico tiene un 99% de probabilidades de ser spam, y otro correo electrónico como 0.51, que predice que tiene un 51% de probabilidades de ser spam. Si estableces en 0.5, el modelo clasificará ambos correos electrónicos como spam. Si estableces el umbral en 0.95, solo la puntuación del correo electrónico de 0.99 clasificarse como spam.

Si bien 0.5 puede parecer un umbral intuitivo, no es una buena idea si el costo de un tipo de clasificación incorrecta es mayor que el otro, o si el clases están desequilibradas. Si solo el 0.01% de los correos electrónicos son spam o si se presentan errores correos legítimos es peor que dejar spam en Recibidos etiquetar cualquier cosa que el modelo considere como spam en un 50% o más ya que el spam produce resultados no deseados.

Matriz de confusión

La puntuación de probabilidad no es la realidad. verdad fundamental. Hay cuatro resultados posibles para cada resultado de un clasificador binario. Para el ejemplo del clasificador de spam, si dispones la verdad fundamental como columnas y la predicción del modelo en filas, la siguiente tabla, llamada matriz de confusión, es la resultado:

Positivo real Negativo real
Predicción positiva Verdadero positivo (VP): Es spam. correo electrónico clasificado correctamente como spam. Estos son los mensajes de spam se envían automáticamente a la carpeta de spam. Falso positivo (FP): Un correo electrónico que no es spam que se clasificó erróneamente como spam. Estos son los correos electrónicos legítimos se encuentran en la carpeta de spam.
Predicción negativa Falso negativo (FN): Es un correo electrónico de spam que se clasificó erróneamente como “no es spam”. Son spam correos electrónicos que no son el filtro de spam y llegan a Recibidos. Verdadero negativo (VN): A Correo electrónico que no es spam y que se clasificó correctamente como tal. Estos son los correos electrónicos legítimos que se envían directamente a Recibidos.

Observa que el total en cada fila da todos los positivos predichos (VP + FP) y todos los negativos predichos (FN + VN), independientemente de su validez. El total en cada la columna, mientras tanto, muestra todos los positivos reales (VP + FN) y todos los negativos reales (FP + VN) independientemente de la clasificación del modelo.

Cuando el total de positivos reales no se acerca al total de los valores negativos, el conjunto de datos es desequilibrado. Una instancia de un conjunto de datos desequilibrado podría ser un conjunto de miles de fotos de nubes, donde el raro tipo de nube que te interesa, digamos, "volutus clouds", solo aparece varias veces.

Efecto del umbral en los verdaderos y falsos positivos y negativos

Los diferentes umbrales suelen generar distintas cantidades de valores verdaderos y falsos positivos y verdaderos y falsos negativos. En el siguiente video, se explica por qué esto es no siempre es el caso.

Intenta cambiar el umbral por tu cuenta.

Este widget incluye tres conjuntos de datos de juguete:

  • Separados, donde los ejemplos positivos y negativos suelen ser bien diferenciados, con la mayoría de los ejemplos positivos con puntuaciones más altas que ejemplos negativos.
  • Sin separar, donde muchos ejemplos positivos tienen puntuaciones más bajas que ejemplos negativos, y muchos ejemplos negativos tienen puntajes más altos que con ejemplos positivos.
  • Desequilibrio, que contiene solo algunos ejemplos de la clase positiva.

Verifica tus conocimientos

1. Imagina un modelo de clasificación de phishing o malware en el que los sitios web de phishing y software malicioso pertenecen a la clase etiquetada como 1 (verdadero) y los sitios web inofensivos están en la clase etiquetada como 0 (falso). Este modelo clasifica por error un sitio web legítimo como software malicioso. ¿Cómo se llama esto?
Un falso positivo
Un ejemplo negativo (sitio legítimo) se equivocó clasificado como positivo (sitio de software malicioso).
Un verdadero positivo
Un verdadero positivo sería un sitio de software malicioso correctamente clasificado como software malicioso.
Un falso negativo
Un falso negativo sería un sitio de software malicioso de forma incorrecta clasificado como sitio legítimo.
Un verdadero negativo
Un verdadero negativo sería un sitio legítimo correctamente clasificado como sitio legítimo.
2. En general, ¿qué sucede con el número de falsos positivos cuando de clasificación del rendimiento? ¿Qué sucede con los verdaderos positivos? Experimenta con el control deslizante de arriba.
Tanto los verdaderos como los falsos positivos se reducen.
A medida que aumente el umbral, es probable que el modelo prediga menos positivos en general, tanto verdaderos como falsos. Un clasificador de spam con un de 0 .9999 solo etiquetará un correo electrónico como spam si considera clasificación sean probables en un 99.99%, lo que significa que es muy es poco probable que etiquete incorrectamente un correo electrónico legítimo, pero que omita correo electrónico no deseado.
Tanto los verdaderos como los falsos positivos aumentan.
Con el control deslizante de arriba, intenta configurar el umbral en 0.1 luego arrastrándolo a 0.9. Qué sucede con la cantidad de falsos positivos y verdaderos positivos?
Los verdaderos positivos aumentan. Los falsos positivos disminuyen.
Con el control deslizante de arriba, intenta configurar el umbral en 0.1 luego arrastrándolo a 0.9. Qué sucede con la cantidad de falsos positivos y verdaderos positivos?
3. En general, ¿qué sucede con el número de falsos negativos cuando de clasificación del rendimiento? ¿Qué pasa con los verdaderos negativos? Experimenta con el control deslizante de arriba.
Tanto los verdaderos como los falsos negativos aumentan.
A medida que aumente el umbral, es probable que el modelo prediga más negativos en general, tanto verdaderos como falsos. En un umbral muy alto, casi todos los correos electrónicos, tanto spam como no spam, se clasificarán como "no es spam".
Tanto los verdaderos como los falsos negativos disminuyen.
Con el control deslizante de arriba, intenta configurar el umbral en 0.1 luego arrastrándolo a 0.9. ¿Qué sucede con la cantidad de falsos negativos? verdaderos negativos?
Los verdaderos negativos aumentan. Los falsos negativos disminuyen.
Con el control deslizante de arriba, intenta configurar el umbral en 0.1 luego arrastrándolo a 0.9. ¿Qué sucede con la cantidad de falsos negativos? verdaderos negativos?