衡量表现

如何判断您的机器学习实现是否值得？您应该何时开始庆祝：是在模型投入生产并提供第一个预测结果后立即开始庆祝，还是仅在定量业务指标开始朝着正确的方向变化后才开始庆祝？

在开始项目之前，请务必确定成功指标并就交付内容达成一致。您需要定义并跟踪以下两种类型的指标：

业务指标。用于量化业务绩效的指标，例如收入、点击率或用户数。
模型指标。用于量化模型质量的指标，例如均方根误差、精确率或召回率。

业务指标

业务指标最为重要。这是您使用机器学习的原因：您希望改进业务。

首先，确定可量化的产品或业务指标。指标应尽可能精细和有针对性。以下是一些有针对性且可量化的业务指标示例：

将数据中心的每月电费降低 30%。
将商品推荐带来的收入提高 12%。
点击率提高 9%。
通过选择加入调查将客户情绪提升了 20%。
网页停留时间增加了 4%。

跟踪业务指标

如果您未跟踪想要改进的业务指标，请先实现相应的基础设施。如果您目前未衡量点击率，那么将目标设定为将点击率提高 15% 是不合逻辑的。

更重要的是，请确保您衡量的是适合您的问题的指标。例如，如果更重要的指标可能是推荐带来的收入，那么就不要花时间编写插桩来跟踪点击通过率。

随着项目的推进，您会发现目标成功指标是否确实是一个现实的目标。在某些情况下，您可能会发现，根据设定的成功指标，该项目不可行。

模型指标

何时应将模型投入生产环境？当 AUC 达到某个值时？当模型达到特定 F1 得分时？此问题的答案取决于您要解决的问题类型以及您认为需要提高预测质量才能改进的业务指标。

在确定要使用哪些指标来评估模型时，请考虑以下因素：

确定要优化的单个指标。例如，可以根据各种指标（AUC、AUC-PR 等）评估分类模型。当不同的指标偏向不同的模型时，选择最佳模型可能会很困难。因此，请就用于评估模型的单一指标达成一致。
确定要达到的可接受性目标。可接受性目标与模型评估指标不同。它们是指模型需要达到的目标，才能被认为适合预期的应用场景。例如，一个可接受性目标可能是“错误输出低于 0.1%”，或者“前五类别的召回率高于 97%”。

例如，假设某个二元分类模型用于检测欺诈性交易。其优化指标可能是召回率，而可接受性目标可能是精确率。换句话说，我们会优先考虑召回率（大部分时间都能正确识别欺诈交易），同时希望精确率保持在特定值或高于该值（识别真正的欺诈性交易）。

模型指标与业务指标之间的关联

从根本上讲，您要尝试开发一种预测质量与业务指标存在因果关系的模型。出色的模型指标并不一定意味着业务指标有所改善。您的团队可能会开发出指标令人印象深刻的模型，但该模型的预测可能无法改善业务指标。

如果您对模型的预测质量感到满意，请尝试确定模型指标对业务指标的影响。通常，团队会将模型部署到 1% 的用户，然后监控业务指标。

例如，假设您的团队开发了一个通过预测客户流失来增加收入的模型。从理论上讲，如果您能预测客户是否可能会离开平台，就可以鼓励他们留下来。

您的团队创建了一个预测质量达到 95% 的模型，并在一小部分用户中对其进行了测试。不过，收入不会增加。客户流失率实际上会增加。以下是一些可能的原因：

预测出现得不够早，无法作为行动依据。该模型只能预测七天内的客户流失情况，这不足以让您及时提供激励措施来留住客户。
功能不完整。可能还有其他因素导致客户流失，但这些因素并未包含在训练数据集中。
阈值不够高。模型可能需要达到 97% 或更高的预测质量才能发挥作用。

这个简单的示例突出了以下两点：

请务必尽早进行用户测试，以证明（并了解）模型指标与业务指标之间的关联。
出色的模型指标并不能保证业务指标有所改善。

生成式 AI

评估生成式 AI 输出面临着独特的挑战。在许多情况下（例如开放式或创意输出），评估生成式 AI 的输出比评估传统机器学习的输出要困难得多。

LLM 可以根据各种指标进行衡量和评估。确定要使用哪些指标来评估模型取决于您的使用场景。

注意事项

请勿将模型成功与业务成功混为一谈。换句话说，指标出色的模型并不能保证业务成功。

许多经验丰富的工程师都可以创建具有出色指标的模型。训练出足够好的模型通常不是问题。而是指模型无法提升业务指标。如果业务指标与模型指标不一致，机器学习项目可能会失败。

检查您的理解情况

您有明确的业务问题，并且针对使用 LLM 作为客户支持代理制定了明确的解决方案。您应该如何衡量解决方案是否成功？

需要人工参与的已解决支持请求数量从 72% 降至 50%。

正确。这是一个可跟踪的可量化业务指标。

大语言模型的评估指标一直很高。

良好的模型指标并不能保证您会获得更好的业务指标。

初步用户测试的反馈非常积极。

早期用户反馈通常更偏向定性而非定量。您需要确定一个可量化的业务指标来衡量效果。

规划

实验