使用指标评估模型

虽然调试机器学习模型可能令人望而却步,但模型指标会显示如何着手。以下部分讨论了如何使用指标评估效果。

使用模型指标评估质量

如需评估模型的质量,常用指标包括:

如需了解如何解读这些指标,请阅读机器学习崩溃内容中的链接内容。如需关于具体问题的其他指导,请参阅下表。

问题 评估质量
回归 除了减小绝对均方误差 (MSE),还应该相对于标签值降低 MSE。例如,假设您要预测两个平均价格为 5 和 100 的商品的价格。在这两种情况下,假设您的 MSE 均为 5。在第一种情况下,MSE 是您平均价格的 100%,这显然是一个很大的错误。在第二种情况下,MSE 是您平均价格的 5%,这是一个合理的错误。
多类别分类 如果您要预测少量类别,请分别查看每个类别的指标。在对多个类别进行预测时,您可以对每个类别的指标取平均值,以跟踪整体分类指标。或者,您可以根据需要确定特定质量目标的优先级。例如,如果您要对图片中的对象进行分类,则可能优先考虑人物的分类质量,而不是其他对象。

检查重要数据切片的指标

拥有高质量的模型后,模型在处理数据子集时仍可能表现不佳。例如,您的独角兽预测器必须在撒哈拉沙漠和纽约市的天气以及任何时候都预测良好。不过,撒哈拉沙漠的训练数据较少。因此,您需要专门跟踪撒哈拉沙漠的模型质量。此类数据子集(例如与撒哈拉沙漠对应的子集)称为数据切片。如果性能非常重要或模型性能可能不佳,您应单独监控数据切片。

您可以根据自己对数据的理解来识别感兴趣的数据切片。然后,比较数据切片的模型指标与整个数据集的指标。检查模型在所有数据切片上的表现有助于消除偏差。如需了解详情,请参阅公平性:评估偏差

使用实际指标

模型指标并不一定衡量模型的实际影响。例如,您可以更改超参数并增加 AUC,但更改对用户体验有何影响?如需衡量实际影响,您需要定义单独的指标。例如,您可以调查看到独角兽外观预测的用户,检查他们是否看到了独角兽。衡量实际影响有助于比较模型不同迭代的质量。