En este módulo, se muestra cómo se puede usar la regresión logística para tareas de clasificación y se explora cómo evaluar la efectividad de los modelos de clasificación.
Clasificación
Clasificación frente a regresión
- A veces, usamos la regresión logística para los resultados de probabilidad; esta es una regresión en (0, 1)
- Otras veces, establecemos umbrales para el valor de una clasificación binaria discreta
- La elección del umbral es una elección importante y se puede ajustar.
Métricas de evaluación: Exactitud
- ¿Cómo evaluamos los modelos de clasificación?
Métricas de evaluación: Exactitud
- ¿Cómo evaluamos los modelos de clasificación?
- Una medida posible: Exactitud
- la fracción de predicciones correctas
La precisión puede ser engañosa
- En muchos casos, la precisión es una métrica deficiente o engañosa.
- La mayoría de las veces cuando los diferentes tipos de errores tienen diferentes costos.
- Un caso típico incluye el desequilibrio de clases, en el que los positivos o negativos son extremadamente excepcionales.
Verdaderos positivos y falsos positivos
- En el caso de los problemas con desequilibrio de clases, es útil separar diferentes tipos de errores
Verdaderos positivos Llamamos correctamente al lobo. Salvamos al pueblo. |
Falsos positivos Error: Llamamos al lobo falsamente. Todos están enojados con nosotros. |
Falsos negativos Había un lobo, pero no lo detectamos. Se comió todos nuestros pollos. |
Verdaderos negativos No hay lobo, no hay alarma. No hay problema. |
Métricas de evaluación: Precisión y recuperación
- Precisión: (Verdaderos positivos) / (Todas las predicciones positivas)
- Cuando el modelo dijo una clase "positiva", ¿era correcto?
- Intuición: ¿El modelo lloró "lobo" con demasiada frecuencia?
Métricas de evaluación: Precisión y recuperación
- Precisión: (Verdaderos positivos)/ (Todas las predicciones positivas)
- Cuando el modelo dijo una clase "positiva", ¿era correcto?
- Intuición: ¿El modelo lloró "lobo" con demasiada frecuencia?
- Recuperación: (Verdaderos positivos) / (Todos los positivos reales)
- De todos los posibles positivos, ¿cuántos identificó correctamente el modelo?
- Intuición: ¿Se perdió algún lobo?
Cuando hayas terminado, presiona reproducir ▶ para continuar
Explora las siguientes opciones.
Considera un modelo de clasificación que separe los correos electrónicos en dos categorías: "es spam" o "no es spam". Si aumentas el umbral de clasificación, ¿qué ocurrirá con la precisión?
Definitivamente aumentar.
El aumento del umbral de clasificación suele aumentar la precisión; sin embargo, no se garantiza que la precisión aumente de forma monótona a medida que se aumenta el umbral.
Probablemente aumente.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Probablemente disminuirá.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Definitivamente disminuirán.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Una curva ROC
Cada punto es la tasa de VP y FP en un umbral de decisión.
Métricas de evaluación: AUC
- AUC: “Área bajo la curva ROC”
Métricas de evaluación: AUC
- AUC: “Área bajo la curva ROC”
- Interpretación:
- Si elegimos un positivo al azar y un negativo aleatorio, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?
Métricas de evaluación: AUC
- AUC: “Área bajo la curva ROC”
- Interpretación:
- Si elegimos un positivo al azar y un negativo aleatorio, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?
- Intuición: proporciona una medida agregada del rendimiento agregado en todos los umbrales de clasificación posibles.
Sesgo de predicción
- Las predicciones de regresión logística no deben tener sesgo.
- promedio de predicciones == promedio de observaciones
Sesgo de predicción
- Las predicciones de regresión logística no deben tener sesgo.
- promedio de predicciones == promedio de observaciones
- El sesgo es canario.
- El sesgo cero por sí solo no significa que todo en tu sistema sea perfecto.
- Pero es un buen control de estado.
Sesgo de predicción (continuación)
- Si tienes sesgo, tienes un problema.
- ¿El conjunto de atributos está incompleto?
- ¿Canalización con errores?
- ¿Sesgo de entrenamiento de muestra?
- No corrija el sesgo con una capa de calibración en el modelo.
- Busca sesgo en segmentos de datos; esto puede guiar las mejoras.