En agosto de 2024, se lanzará una versión nueva y mejorada del Curso intensivo de aprendizaje automático. ¡No te pierdas ninguna novedad!

Se usó la API de Cloud Translation para traducir esta página.

Clasificación

En este módulo, se muestra cómo se puede usar la regresión logística para tareas de clasificación y se explora cómo evaluar la efectividad de los modelos de clasificación.

Clasificación

Clasificación frente a regresión

A veces, usamos la regresión logística para los resultados de probabilidad; esta es una regresión en (0, 1)
Otras veces, establecemos umbrales para el valor de una clasificación binaria discreta
La elección del umbral es una elección importante y se puede ajustar.

Métricas de evaluación: Exactitud

¿Cómo evaluamos los modelos de clasificación?

Métricas de evaluación: Exactitud

¿Cómo evaluamos los modelos de clasificación?
Una medida posible: Exactitud
- la fracción de predicciones correctas

La precisión puede ser engañosa

En muchos casos, la precisión es una métrica deficiente o engañosa.
- La mayoría de las veces cuando los diferentes tipos de errores tienen diferentes costos.
- Un caso típico incluye el desequilibrio de clases, en el que los positivos o negativos son extremadamente excepcionales.

Verdaderos positivos y falsos positivos

En el caso de los problemas con desequilibrio de clases, es útil separar diferentes tipos de errores

Verdaderos positivos Llamamos correctamente al lobo. Salvamos al pueblo.	Falsos positivos Error: Llamamos al lobo falsamente. Todos están enojados con nosotros.
Falsos negativos Había un lobo, pero no lo detectamos. Se comió todos nuestros pollos.	Verdaderos negativos No hay lobo, no hay alarma. No hay problema.

Métricas de evaluación: Precisión y recuperación

Precisión: (Verdaderos positivos) / (Todas las predicciones positivas)

Cuando el modelo dijo una clase "positiva", ¿era correcto?
Intuición: ¿El modelo lloró "lobo" con demasiada frecuencia?

Métricas de evaluación: Precisión y recuperación

Precisión: (Verdaderos positivos)/ (Todas las predicciones positivas)

Cuando el modelo dijo una clase "positiva", ¿era correcto?
Intuición: ¿El modelo lloró "lobo" con demasiada frecuencia?

Recuperación: (Verdaderos positivos) / (Todos los positivos reales)

De todos los posibles positivos, ¿cuántos identificó correctamente el modelo?
Intuición: ¿Se perdió algún lobo?

Cuando hayas terminado, presiona reproducir &#x25b6 para continuar

Explora las siguientes opciones.

Considera un modelo de clasificación que separe los correos electrónicos en dos categorías: "es spam" o "no es spam". Si aumentas el umbral de clasificación, ¿qué ocurrirá con la precisión?

Definitivamente aumentar.

El aumento del umbral de clasificación suele aumentar la precisión; sin embargo, no se garantiza que la precisión aumente de forma monótona a medida que se aumenta el umbral.

Probablemente aumente.

En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.

Probablemente disminuirá.

En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.

Definitivamente disminuirán.

En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.

Una curva ROC

Cada punto es la tasa de VP y FP en un umbral de decisión.

Curva ROC que muestra la tasa de VP frente a la tasa de FP en diferentes umbrales de clasificación.

Métricas de evaluación: AUC

AUC: “Área bajo la curva ROC”

Métricas de evaluación: AUC

AUC: “Área bajo la curva ROC”
Interpretación:

Si elegimos un positivo al azar y un negativo aleatorio, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?

Métricas de evaluación: AUC

AUC: “Área bajo la curva ROC”
Interpretación:

Si elegimos un positivo al azar y un negativo aleatorio, ¿cuál es la probabilidad de que mi modelo los clasifique en el orden correcto?

Intuición: proporciona una medida agregada del rendimiento agregado en todos los umbrales de clasificación posibles.

Sesgo de predicción

Las predicciones de regresión logística no deben tener sesgo.

promedio de predicciones == promedio de observaciones

Sesgo de predicción

Las predicciones de regresión logística no deben tener sesgo.

promedio de predicciones == promedio de observaciones

El sesgo es canario.

El sesgo cero por sí solo no significa que todo en tu sistema sea perfecto.
Pero es un buen control de estado.

Sesgo de predicción (continuación)

Si tienes sesgo, tienes un problema.

¿El conjunto de atributos está incompleto?
¿Canalización con errores?
¿Sesgo de entrenamiento de muestra?

No corrija el sesgo con una capa de calibración en el modelo.
Busca sesgo en segmentos de datos; esto puede guiar las mejoras.

Las representaciones de calibración muestran sesgo agrupado

Pérdida y regularización

Umbral