衡量表现

如何判断您的机器学习实现是否值得?您应该何时开始庆祝:模型投入生产环境并提供第一个预测之后,还是仅在定量业务指标开始朝着正确的方向发展之后?

在启动项目之前,请务必定义成功指标并就可交付成果达成一致。您需要定义和跟踪以下两种指标:

  • 业务指标。用于量化业务绩效的指标,例如收入、点击率或用户数量。

  • 模型指标。用于量化模型质量的指标,例如均方根误差精确率召回率

业务指标

业务指标是最重要的。它们是您使用机器学习的原因:您希望改善业务。

从可量化的产品或业务指标入手。指标应该尽可能细化和重点。下面列举了一些具有针对性且可量化的业务指标:

  • 将数据中心每月的电力成本降低 30%。
  • 将产品推荐带来的收入提高 12%。
  • 将点击率提高 9%。
  • 将客户参与调查的客户情绪提升 20%。
  • 将页面停留时间延长 4%。

跟踪业务指标

如果您没有跟踪想要改进的业务指标,请先实现基础架构以执行此操作。如果您目前未衡量点击率,那么将点击率设置为 15% 的目标就不太合理。

更重要的是,请务必根据您的问题衡量合适的指标。 例如,如果更重要的指标可能是推荐带来的收入,则不要花时间编写插桩来跟踪点击率。

随着项目的进行,您将认识到目标成功指标是否确实是一个切合实际的目标值。在某些情况下,您可以根据定义的成功指标,确定项目不可行。

模型指标

您应该何时将模型投入生产?当 AUC 达到特定值时,模型何时达到特定的 F1 得分?问题的答案取决于您要解决的问题类型,以及您认为改进业务指标所需的预测质量。

确定要根据哪些指标评估模型时,请考虑以下因素:

  • 确定要优化的单个指标。例如,可以根据各种指标(AUCAUC-PR 等)评估分类模型。当不同指标青睐不同的模型时,选择最佳模型可能很有挑战性。因此,请就评估模型时所依据的单一指标达成一致。

  • 确定要实现的可接受性目标。可接受性目标与模型评估指标不同。它们是指模型需要满足的目标才能被视为符合预期用例的要求。例如,可接受性目标可能是“错误输出小于 0.1%”或“前五个类别的召回率大于 97%”。

例如,假设二元分类模型检测到欺诈性交易。其优化指标可能是召回率,而可接受性目标可能是精确率。换言之,我们会优先考虑召回率(大多数情况下能够正确识别欺诈行为),同时希望精确率保持在或高于特定值(识别真正的欺诈性交易)。

模型指标与业务指标之间的关联

从根本上说,您需要开发的是一个模型的预测质量与您的业务指标有着因果关系。出色的模型指标并不一定意味着业务指标得到提升。您的团队可能开发了一个指标令人印象深刻的模型,但模型的预测可能无法改善业务指标。

如果您对模型的预测质量感到满意,请尝试确定模型的指标对业务指标的影响。通常,团队会将模型部署到 1% 的用户,然后监控业务指标。

例如,假设您的团队开发了一个模型,通过预测客户流失情况来增加收入。从理论上说,如果您可以预测客户是否会离开平台,您就可以鼓励他们留下来。

您的团队创建了一个预测质量为 95% 的模型,并基于一小部分用户样本进行测试。但是,收入没有增加。客户流失实际上增加了。以下提供了一些可能的原因:

  • 预测发生的时间不够早,无法作为行动依据。模型只能预测 7 天内的客户流失情况,这还不足以提供激励措施来让他们留在平台上。

  • 功能不完整。可能有其他因素导致了训练数据集以外的客户流失。

  • 门槛不够高。模型的预测质量可能需要达到 97% 或更高才能发挥作用。

这个简单的示例突出了两点:

  • 请务必执行早期用户测试,以证明(和了解)模型的指标与业务指标之间的关联。
  • 出色的模型指标并不能保证业务指标的改善。

生成式 AI

评估生成式 AI 的输出存在独特的挑战。在许多情况下,如开放式输出或创意输出,这比评估传统机器学习输出更困难。

可以针对各种指标衡量和评估 LLM。确定评估模型所依据的指标取决于您的使用场景。如需了解详情,请参阅 评估 LLM 简介

注意事项

不要将“模式成功”与“业务成功”混淆。换句话说,具有出色指标的模型并不能保证业务成功。

许多技术熟练的工程师都能用出色的指标创建模型。训练一个足够好的模型通常不是问题。相反,该模型并没有改善业务指标。机器学习项目可能会因业务指标和模型指标之间不一致而失败。

检查您的理解情况