Clasificación

En este módulo, se muestra cómo se puede usar la regresión logística para tareas de clasificación y se explora cómo evaluar la efectividad de los modelos de clasificación.

Clasificación

  • A veces, usamos la regresión logística para los resultados de probabilidad; esta es una regresión en (0, 1)
  • Otras veces, establecemos umbrales para el valor de una clasificación binaria discreta
  • La elección del umbral es una elección importante y se puede ajustar.
  • ¿Cómo evaluamos los modelos de clasificación?
  • ¿Cómo evaluamos los modelos de clasificación?
  • Una medida posible: Exactitud
    • la fracción de predicciones correctas
  • En muchos casos, la precisión es una métrica deficiente o engañosa.
    • La mayoría de las veces cuando los diferentes tipos de errores tienen diferentes costos.
    • Un caso típico incluye el desequilibrio de clases, en el que los positivos o negativos son extremadamente excepcionales.
  • En el caso de los problemas con desequilibrio de clases, es útil separar diferentes tipos de errores
Verdaderos positivos
Llamamos correctamente al lobo.
Salvamos al pueblo.

Falsos positivos
Error: Llamamos al lobo falsamente.
Todos están enojados con nosotros.

Falsos negativos
Había un lobo, pero no lo detectamos. Se comió todos nuestros pollos.
Verdaderos negativos
No hay lobo, no hay alarma.
No hay problema.

  • Precisión: (Verdaderos positivos) / (Todas las predicciones positivas)
    • Cuando el modelo dijo una clase "positiva", ¿era correcto?
    • Intuición: ¿El modelo lloró "lobo" con demasiada frecuencia?
  • Precisión: (Verdaderos positivos)/ (Todas las predicciones positivas)
    • Cuando el modelo dijo una clase "positiva", ¿era correcto?
    • Intuición: ¿El modelo lloró "lobo" con demasiada frecuencia?
  • Recuperación: (Verdaderos positivos) / (Todos los positivos reales)
    • De todos los posibles positivos, ¿cuántos identificó correctamente el modelo?
    • Intuición: ¿Se perdió algún lobo?

Explora las siguientes opciones.

Considera un modelo de clasificación que separe los correos electrónicos en dos categorías: "es spam" o "no es spam". Si aumentas el umbral de clasificación, ¿qué ocurrirá con la precisión?
Definitivamente aumentar.
El aumento del umbral de clasificación suele aumentar la precisión; sin embargo, no se garantiza que la precisión aumente de forma monótona a medida que se aumenta el umbral.
Probablemente aumente.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Probablemente disminuirá.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Definitivamente disminuirán.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.

Cada punto es la tasa de VP y FP en un umbral de decisión.

Curva ROC que muestra la tasa de VP frente a la tasa de FP en diferentes umbrales de clasificación.
  • AUC: “Área bajo la curva ROC”
  • AUC: “Área bajo la curva ROC”
  • Interpretación:
    • Si elegimos un positivo al azar y un negativo aleatorio, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?
  • AUC: “Área bajo la curva ROC”
  • Interpretación:
    • Si elegimos un positivo al azar y un negativo aleatorio, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?
  • Intuición: proporciona una medida agregada del rendimiento agregado en todos los umbrales de clasificación posibles.
  • Las predicciones de regresión logística no deben tener sesgo.
    • promedio de predicciones == promedio de observaciones
  • Las predicciones de regresión logística no deben tener sesgo.
    • promedio de predicciones == promedio de observaciones
  • El sesgo es canario.
    • El sesgo cero por sí solo no significa que todo en tu sistema sea perfecto.
    • Pero es un buen control de estado.
  • Si tienes sesgo, tienes un problema.
    • ¿El conjunto de atributos está incompleto?
    • ¿Canalización con errores?
    • ¿Sesgo de entrenamiento de muestra?
  • No corrija el sesgo con una capa de calibración en el modelo.
  • Busca sesgo en segmentos de datos; esto puede guiar las mejoras.
Un trazado de calibración