实现模型

实现模型时,从简单的操作入手。机器学习中的大部分工作是在数据端进行的,因此针对复杂的模型运行完整流水线比对模型本身进行迭代更困难。设置数据流水线并实现使用一些特征的简单模型后,您可以反复改进,以创建一个更好的模型。

简单的模型可以提供良好的基准,即使您最终无法发布这些模型也是如此。事实上,使用简单的模型可能比您想象的要好。从简单模型入手有助于您确定复杂的模型是否合理。

训练您自己的模型与使用预训练模型的对比

许多预训练模型适用于各种使用场景,并且具有许多优势。但是,只有当标签和特征与您的数据集完全匹配时,预训练模型才能真正起作用。例如,如果预训练模型使用 25 个特征,而数据集仅包含 24 个特征,则预训练模型很可能会做出错误的预测。

通常,机器学习从业者使用来自预训练模型的匹配输入子部分进行微调或迁移学习。如果您的特定使用场景不存在预训练模型,请考虑在训练您自己的模型时使用预训练模型中的子部分。

如需了解预训练模型,请参阅

Monitoring

在构建问题的过程中,请考虑您的机器学习解决方案所需的监控和提醒基础架构。

模型部署

在某些情况下,新训练的模型可能比当前生产环境中的模型更差。如果是,您需要防止将其发布到生产环境,并收到自动部署失败的提醒。

训练-应用偏差

如果用于推断的任何传入特征的值不在训练中所用数据的分布范围内,您需要收到提醒,因为模型很可能做出糟糕的预测。例如,如果您的模型经过训练,可以预测海平面上赤道城市的温度,则您的服务系统应提醒您注意传入的数据(其中包含的纬度和经度以及/或模型训练时采用的海拔高度/或海拔高度)。相反,如果模型所做的预测超出训练期间看到的分布范围,则服务系统应向您发出提醒。

推断服务器

如果您通过 RPC 系统提供推断,则需要监控 RPC 服务器本身,并在其停止提供推断时收到提醒。