如需准备用于生产环境的机器学习流水线,您需要执行以下操作:
- 为流水线预配计算资源
- 实现日志记录、监控和提醒
预配计算资源
运行机器学习流水线需要计算资源,例如 RAM、CPU 和 GPU/TPU。 如果没有足够的计算,您无法运行流水线。因此,请确保 以获得足够的配额来预配流水线所需的资源 需要在生产环境中运行
服务、训练和验证流水线。这些流水线需要 TPU、GPU 或 CPU。根据您的使用场景,您可能需要训练和部署 或者使用相同的硬件例如,训练部分 但传送可能会使用 TPU,反之亦然。一般来说, 通常在较大的硬件上训练,然后在较小的硬件上运行。
挑选硬件时,请考虑以下事项:
- 您能否使用价格更低的硬件进行训练?
- 改用其他硬件是否会提升性能?
- 型号有多大?哪种硬件可以优化其性能?
- 就您的模型架构而言,哪种硬件是理想的选择?
数据流水线。数据流水线需要 RAM 和 CPU 配额 您需要估算 流水线生成训练和测试数据集所需的配额。
您可能不会为每个流水线分配配额。您可以改为 分配流水线共享的配额在这种情况下,请确认 您有足够的配额来运行所有流水线,以及设置监控和 以防止单个错误的流水线耗尽所有配额。
正在估算配额
如需估算数据和训练流水线所需的配额,请查看 并据此做出估算如需估算传送配额,请尝试执行以下操作: 来预测服务的每秒查询次数。这些方法提供了一个基准。如 您在实验阶段开始设计解决方案的原型, 以获得更精确的配额估算值。
估算配额时,不仅要考虑生产的配额,还要考虑 也可用于正在进行的实验
检查您的理解情况
日志记录、监控和提醒
记录和监控生产模型的行为至关重要。Robust 监控基础设施,确认您的模型是否可靠, 高质量预测。
良好的日志记录和监控做法有助于主动识别机器学习中的问题 流水线并减轻潜在的业务影响。发生问题时 通知团队成员,全面的日志有助于诊断 问题的根本原因
您应实现日志记录和监控,以检测以下问题 机器学习流水线:
流水线 | 监控 |
---|---|
处理流量 |
|
数据 |
|
培训 |
|
验证 |
|
您还需要针对以下内容进行日志记录、监控、提醒:
- 延迟时间。提供预测结果需要多长时间?
- 服务中断。模型是否已停止提供预测?
检查您的理解情况
部署模型
对于模型部署,您需要记录以下内容:
- 开始部署和扩大部署范围需要批准。
- 如何将模型投入生产环境。
- 模型的部署位置,例如,如果有预演或 Canary 版, 环境
- 部署失败时的处理方式。
- 如何回滚已在生产环境中使用的模型。
自动执行模型训练后, 验证和部署自动执行部署分配 责任,并降低部署因以下原因而遭遇瓶颈的可能性 一个人。还能减少潜在错误、提高效率 可靠性,并且支持值班轮换和 SRE 支持。
通常,您要将新模型部署给一部分用户,以检查模型是否 行为与预期。如果是,请继续部署。如果不是, 回滚部署并开始诊断和调试问题。