实现模型

实现模型时,先从简单的入手。机器学习中的大多数工作都在数据端,因此为复杂的模型运行完整的流水线比对模型本身进行迭代更困难。在设置数据流水线并实现使用一些特征的简单模型后,您可以反复改进,以创建一个更好的模型。

简单的模型可以提供很好的基准,即使您最终无法发布它们也是如此。事实上,使用简单的模型可能比您想象的要好。从简单模型开始有助于您确定复杂模型是否合理。

训练自己的模型与使用已训练的模型

经过训练的模型适用于各种用例,具有诸多优势。但是,经过训练的模型只有在标签和特征与您的数据集完全匹配时才能真正发挥作用。例如,如果一个经过训练的模型使用 25 个特征,而您的数据集仅包含 24 个特征,训练后的模型很可能会做出错误的预测。

通常,机器学习从业者使用经过训练的模型中匹配的输入子部分来进行微调或迁移学习。如果您的特定用例不存在经过训练的模型,请考虑在训练您自己的模型时使用经过训练的模型的子部分。

如需了解经过训练的模型,请参阅

监控

在构思问题的过程中,请考虑您的机器学习解决方案所需的监控和提醒基础架构。

模型部署

在某些情况下,新训练的模型可能比当前生产环境中的模型更差。如果是,您需要阻止其发布到生产环境,并收到自动部署失败的提醒。

训练-应用偏差

如果用于推理的任何传入特征的值超出训练中所用数据的分布范围,您会需要收到提醒,因为模型很可能做出糟糕的预测。例如,如果您的模型经过训练,可以预测赤道城市海平面的温度,则服务系统应提醒您注意传入的数据,其中包括纬度和经度的传入数据,以及/或者模型训练使用范围内的海拔高度。相反,如果模型进行的预测超出训练期间看到的分布范围,服务系统应该会提醒您。

推断服务器

如果您通过 RPC 系统提供推断,则需要监控 RPC 服务器本身,并在其停止提供推断时收到提醒。