Evalúa modelos con métricas

Si bien depurar un modelo de AA puede parecer abrumador, las métricas te muestran por dónde comenzar. En las siguientes secciones, se analiza cómo evaluar el rendimiento mediante métricas.

Evalúa la calidad con métricas de modelos

Para evaluar la calidad de tu modelo, las métricas más usadas son las siguientes:

Si deseas obtener orientación para interpretar estas métricas, lee el contenido vinculado del contenido de fallas del aprendizaje automático. Para obtener orientación adicional sobre problemas específicos, consulta la siguiente tabla.

Problema Evaluación de la calidad
Regresión Además de reducir el error cuadrático medio (ECM) absoluto, reduce el ECM relacionado con los valores de tus etiquetas. Por ejemplo, supongamos que predices el precio de dos elementos que tienen precios promedio de 5 y 100. En ambos casos, supongamos que el ECM es 5. En el primer caso, el ECM equivale al 100% del precio medio, lo que claramente es un error grave. En el segundo caso, el ECM equivale al 5% del precio promedio, lo cual es un error razonable.
Clasificación de clases múltiples Si predices una pequeña cantidad de clases, observa las métricas por clase de forma individual. Si realizas predicciones en muchas clases, puedes promediar las métricas por clase para realizar un seguimiento de las métricas de clasificación generales. También puedes priorizar ciertos objetivos de calidad según tus necesidades. Por ejemplo, si clasificas objetos en imágenes, entonces puedes priorizar la calidad de la clasificación para las personas por sobre otros.

Verifica las métricas para secciones de datos importantes

Una vez que tengas un modelo de alta calidad, es posible que tu modelo aún tenga un rendimiento deficiente en los subconjuntos de tus datos. Por ejemplo, el predictor de tu unicornio debe predecir bien tanto en el desierto del Sahara como en la ciudad de Nueva York, y en todo momento del día. Sin embargo, tienes menos datos de entrenamiento para el desierto del Sahara. Por lo tanto, debes rastrear la calidad del modelo específicamente para el desierto del Sahara. Estos subconjuntos de datos, como el subconjunto del desierto del Sahara, se denominan fragmentos de datos. Debes supervisar por separado los segmentos de datos en los que el rendimiento es importante o en el que el modelo podría tener un rendimiento bajo.

Usa tus conocimientos sobre los datos para identificar porciones de interés. Luego, compara las métricas del modelo para los segmentos de datos con las métricas de todo tu conjunto de datos. Verificar que el modelo tenga un buen rendimiento en todos los segmentos ayuda a quitar el sesgo. Para obtener más información, consulta Equidad: Evaluación de sesgo.

Usa métricas reales

Las métricas del modelo no necesariamente miden el impacto real de tu modelo. Por ejemplo, puedes cambiar un hiperparámetro y aumentar el AUC, pero ¿cómo influyó el cambio en la experiencia del usuario? Para medir el impacto en el mundo real, debes definir métricas separadas. Por ejemplo, puedes encuestar a los usuarios que ven la predicción de la apariencia de un unicornio para verificar si vieron o no un unicornio. Medir el impacto en el mundo real ayuda a comparar la calidad de las diferentes iteraciones de tu modelo.