实现模型时,先从简单的入手。机器学习中的大部分工作都围绕数据展开, 因此,针对复杂模型运行完整的流水线比 对模型本身进行迭代。在设置好数据流水线 您可以实现一个使用若干特征的简单模型, 从而创建更好的模型。
简单的模型可以提供良好的基准,即便您最终不会启动它们。 事实上,使用简单的模型可能比你想象的要好。从简单的 可帮助您确定某个复杂模型是否合理。
训练您自己的模型与使用已训练的模型
经过训练的模型适用于各种使用场景, 优势。然而,只有标签和标签值相冲突, 与您的数据集完全匹配。例如,如果一个经过训练的模型 使用了 25 个特征,而您的数据集仅包含其中的 24 个, 则很有可能会做出错误的预测。
通常,机器学习从业者会使用 用于微调或迁移学习的经过训练的模型。如果一个经过训练的模型 还不存在,请考虑 使用经过训练的模型中的子部分来训练您自己的模型。
如需了解经过训练的模型,请参阅
监控
在构建问题框架时,应考虑您的监控与提醒基础架构, 机器学习解决方案需求。
模型部署
在某些情况下,新训练的模型可能比当前 生产环境。如果是这样,您需要防止将其发布到 并在自动部署失败时收到提醒。
训练-应用偏差
如果用于推理的任何传入特征的值超出 训练中所用数据的分布范围,您需要收到提醒。 因为模型很可能做出不好的预测。例如,如果您的 模型经过训练,以预测赤道城市的海平面温度, 那么您的服务系统应该通过纬度和经度来提醒您 经度和/或海拔高度。 反之,如果模型使模型做出预测, 这些预测不在实验期间见过的分布范围内, 训练。
推理服务器
如果您通过 RPC 系统提供推论,则需要监控 RPC 服务器本身,并在停止提供推断时收到提醒。