Cómo medir el éxito

¿Cómo sabrás si valió la pena el trabajo de implementación de AA? Cuándo debes comenzar a celebrar: ¿justo después de que el modelo pase a producción y entregue su primera predicción o solo después de que una métrica comercial cuantitativa comience a avanzar en la dirección correcta?

Antes de comenzar un proyecto, es fundamental definir las métricas de éxito y acordar los entregables. Deberás definir los siguientes dos tipos de métricas y hacer un seguimiento de ellos:

Métricas empresariales

Las métricas empresariales son las más importantes. Son la razón por la que usas AA: quieres mejorar el negocio.

Comienza con métricas cuantificables de productos o empresas. La métrica debe ser lo más detallada y enfocada posible. Los siguientes son ejemplos de métricas empresariales enfocadas y cuantificables:

  • Reducir los costos eléctricos mensuales de un centro de datos en un 30%
  • Aumentar los ingresos provenientes de las recomendaciones de productos en un 12%
  • Aumentar la tasa de clics en un 9%
  • Aumentar la opinión de los clientes respecto de las encuestas de aceptación en un 20%
  • Aumentar el tiempo en la página en un 4%

Seguimiento de las métricas comerciales

Si no haces un seguimiento de la métrica empresarial que deseas mejorar, comienza por implementar la infraestructura para hacerlo. Establecer un objetivo de aumentar la tasa de clics en un 15% no es lógico si actualmente no mides las tasas de clics.

Lo más importante es asegurarte de estar midiendo la métrica correcta para tu problema. Por ejemplo, no dediques tiempo a escribir instrumentación para hacer un seguimiento de las tasas de clics si la métrica más importante podría ser los ingresos de las recomendaciones.

A medida que avance el proyecto, te darás cuenta de si la métrica de éxito objetivo es o no un objetivo realista. En algunos casos, podrías determinar que el proyecto no es viable dadas las métricas de éxito definidas.

Métricas del modelo

¿Cuándo deberías poner el modelo en producción? ¿Cuando el AUC está en cierto valor? ¿Cuándo el modelo alcanza una puntuación F1 particular? La respuesta a esta pregunta depende del tipo de problema que resuelvas y de la calidad de predicción que crees que necesitas para mejorar la métrica empresarial.

Cuando determines con qué métricas evaluar tu modelo, ten en cuenta lo siguiente:

  • Determina una sola métrica para optimizar. Por ejemplo, los modelos de clasificación se pueden evaluar en función de una variedad de métricas (AUC, AUC-PR, etcétera). Elegir el mejor modelo puede ser un desafío cuando diferentes métricas favorecen modelos distintos. Por lo tanto, acuerda una sola métrica con la que evaluar los modelos.

  • Determina los objetivos de aceptación que deseas cumplir. Los objetivos de aceptación son diferentes de las métricas de evaluación del modelo. Se refieren a los objetivos que un modelo debe cumplir para que se considere aceptable en un caso de uso previsto. Por ejemplo, un objetivo de aceptación podría ser "el resultado incorrecto es inferior al 0.1%" o "la recuperación de las cinco categorías principales es superior al 97%".

Por ejemplo, supongamos que un modelo de clasificación binaria detecta transacciones fraudulentas. Su métrica de optimización puede ser la recuperación, mientras que su objetivo de aceptación puede ser la precisión. En otras palabras, priorizaríamos la recuperación (identificar correctamente el fraude la mayor parte del tiempo) y que, al mismo tiempo, deseamos que la precisión se mantenga igual o superior a un valor determinado (identificar las transacciones fraudulentas reales).

Conexión entre las métricas del modelo y las métricas empresariales

En esencia, tu objetivo es desarrollar un modelo cuya calidad de predicción esté conectada de manera causal a tu métrica empresarial. Las buenas métricas de los modelos no implican necesariamente mejores métricas de negocios. Tu equipo puede desarrollar un modelo con métricas impresionantes, pero las predicciones del modelo pueden no mejorar la métrica empresarial.

Cuando estés satisfecho con la calidad de predicción del modelo, intenta determinar cómo las métricas del modelo afectan la métrica empresarial. Por lo general, los equipos implementarán el modelo para el 1% de los usuarios y, luego, supervisarán la métrica empresarial.

Por ejemplo, supongamos que tu equipo desarrolla un modelo para aumentar los ingresos mediante la predicción de la deserción de clientes. En teoría, si puedes predecir si es probable que un cliente abandone la plataforma o no, puedes animarlo a que se quede.

Tu equipo crea un modelo con una calidad de predicción del 95% y lo prueba en una muestra pequeña de usuarios. Sin embargo, los ingresos no aumentan. En realidad, la deserción de los clientes aumenta. A continuación, se incluyen algunas explicaciones posibles:

  • Las predicciones no ocurren lo suficientemente temprano como para ser procesables. El modelo solo puede predecir la deserción de los clientes en un plazo de siete días, lo cual no es suficiente para ofrecer incentivos que los ayuden a permanecer en la plataforma.

  • Atributos incompletos. Hay otros factores que contribuyen a la deserción de los clientes, pero no en el conjunto de datos.

  • El umbral no es lo suficientemente alto. Es posible que el modelo necesite una calidad de predicción del 97% o más para ser útil.

Este ejemplo simple destaca los dos puntos:

  • Es importante realizar las primeras pruebas de usuario para demostrar (y comprender) la conexión entre las métricas del modelo y las métricas empresariales.
  • Las métricas eficaces de un modelo no garantizan mejores métricas empresariales.

IA generativa

Evaluar los resultados de la IA generativa presenta desafíos únicos. En muchos casos, como los resultados de creatividad o de código abierto, es más difícil que evaluar los resultados de AA tradicionales.

Los LLM se pueden medir y evaluar en función de una variedad de métricas. Determinar con qué métricas evaluar tu modelo depende de tu caso de uso. Para obtener más información, consulta Introducción a la evaluación de los LLM.

Recuerda

No confundas el éxito del modelo con el éxito empresarial. En otras palabras, un modelo con métricas sobresalientes no garantiza el éxito del negocio.

Muchos ingenieros calificados pueden crear modelos con métricas impresionantes. Entrenar un modelo lo suficientemente bueno no suele ser el problema. En cambio, el modelo no mejora la métrica empresarial. Un proyecto de AA puede destinarse al fracaso de una desalineación entre las métricas empresariales y las métricas del modelo.

Comprueba tu comprensión