Clasificación: Comprueba tu comprensión (exactitud, precisión, recuperación)

Exactitud

Explora las siguientes opciones.

¿En cuál de las siguientes situaciones un valor de precisión alto sugeriría que el modelo de AA está haciendo un buen trabajo?
Una afección médica mortal pero curable afecta al 0 .01% de la población. Un modelo de AA usa los síntomas como atributos y predice esa afección con una exactitud del 99.99%.
La exactitud es una métrica deficiente en este caso. Después de todo, incluso un modelo "tonto" que siempre predice "no enfermo" sería igualmente preciso en un 99.99%. Predecir por error (no enfermo) para una persona que en realidad está enferma podría ser mortal.
Un costoso robot robótico cruza una calle muy transitada mil veces al día. Un modelo de AA evalúa los patrones de tráfico y predice cuándo este pollo puede cruzar la calle de forma segura con una exactitud del 99.99%.
Un valor de precisión del 99.99% en una ruta muy transitada sugiere que el modelo de AA es mucho mejor que el azar. Sin embargo, en algunas configuraciones, el costo de cometer incluso una pequeña cantidad de errores sigue siendo demasiado alto. Una exactitud del 99.99% significa que el costoso pollo deberá reemplazarse, en promedio, cada 10 días. (Es posible que el pollo también cause daños importantes a los autos que golpee).
En el juego de la ruleta, se arroja una pelota sobre una rueda giratoria y esta finalmente cae en una de 38 ranuras. Mediante el uso de atributos visuales (el giro de la bola, la posición de la rueda cuando se lanzó, la altura de la bola sobre la rueda), un modelo de AA puede predecir la ranura en la que aterrizará la bola con una precisión del 4%.
Este modelo de AA realiza predicciones mucho mejores que las casualidades. Un cálculo aleatorio sería correcto 1/38 de las veces, lo que produciría una exactitud del 2.6%. Aunque la exactitud del modelo es solo del 4%, los beneficios del éxito superan con creces las desventajas de los errores.

Precisión

Explora las siguientes opciones.

Considera un modelo de clasificación que separe el correo electrónico en dos categorías: "es spam" o "no es spam". Si aumentas el umbral de clasificación, ¿qué ocurrirá con la precisión?
Definitivamente aumentar.
El aumento del umbral de clasificación suele aumentar la precisión; sin embargo, no se garantiza que la precisión aumente de forma monótona a medida que se aumenta el umbral.
Probablemente aumente.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Probablemente disminuirá.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.
Definitivamente disminuirán.
En general, el aumento del umbral de clasificación reduce los falsos positivos y, por lo tanto, aumenta la precisión.

Recuperación

Explora las siguientes opciones.

Considera un modelo de clasificación que separe el correo electrónico en dos categorías: "es spam" o "no es spam". Si aumentas el umbral de clasificación, ¿qué ocurrirá con la recuperación?
Siempre aumenta.
El aumento del umbral de clasificación provocará lo siguiente:
  • La cantidad de verdaderos positivos disminuirá o se mantendrá igual.
  • La cantidad de falsos negativos aumentará o se mantendrá igual.
Por lo tanto, la recuperación nunca aumentará.
Siempre disminuir o mantenerse igual
El aumento de nuestro umbral de clasificación hará que el número de verdaderos positivos disminuya o permanezca igual, y que el número de falsos negativos aumente o permanezca igual. Por lo tanto, la recuperación permanecerá constante o disminuirá.
Mantente constante.
El aumento de nuestro umbral de clasificación hará que el número de verdaderos positivos disminuya o permanezca igual, y que el número de falsos negativos aumente o permanezca igual. Por lo tanto, la recuperación permanecerá constante o disminuirá.

Precisión y recuperación

Explora las siguientes opciones.

Considera dos modelos, A y B, que evalúan el mismo conjunto de datos. ¿Cuál de las siguientes afirmaciones es verdadera?
Si el modelo A tiene mejor precisión que el modelo B, entonces el modelo A es mejor.
Si bien la precisión es mejor, puede llegar a costa de una gran reducción en la recuperación. En general, debemos analizar la precisión y la recuperación en conjunto, o bien métricas de resumen como el AUC, que analizaremos a continuación.
Si el modelo A tiene mejor recuperación que el modelo B, el modelo A es mejor.
Aunque una mejor recuperación es buena, puede llegar a costa de una gran reducción en la precisión. En general, debemos observar la precisión y la recuperación en conjunto, o bien resumir las métricas, como el AUC, que analizaremos a continuación.
Si el modelo A tiene mejor precisión y recuperación que el modelo B, es probable que el modelo A sea mejor.
En general, un modelo que tenga un mejor rendimiento que otro en términos de precisión y recuperación probablemente sea el mejor modelo. Obviamente, tendremos que asegurarnos de que la comparación se realice en un punto de precisión y recuperación que sea útil en la práctica para que esto sea significativo. Por ejemplo, supongamos que nuestro modelo de detección de spam necesita tener una precisión del 90% como mínimo para ser útil y evitar las falsas alarmas innecesarias. En este caso, comparar un modelo con {20% de precisión, 99% de recuperación} con otro con {15% de precisión, 98% de recuperación} no es particularmente instructivo, ya que ninguno de estos cumple con el requisito del 90% de precisión. Sin embargo, con esa advertencia en mente, esta es una buena forma de pensar en la comparación de modelos cuando se usan la precisión y la recuperación.