生产化

如需准备用于生产环境的机器学习流水线,您需要执行以下操作:

  • 为流水线预配计算资源
  • 实现日志记录、监控和提醒

预配计算资源

运行机器学习流水线需要计算资源,例如 RAM、CPU 和 GPU/TPU。 如果没有足够的计算,您无法运行流水线。因此,请确保 以获得足够的配额来预配流水线所需的资源 需要在生产环境中运行

  • 服务、训练和验证流水线。这些流水线需要 TPU、GPU 或 CPU。根据您的使用场景,您可能需要训练和部署 或者使用相同的硬件例如,训练部分 但传送可能会使用 TPU,反之亦然。一般来说, 通常在较大的硬件上训练,然后在较小的硬件上运行。

    挑选硬件时,请考虑以下事项:

    • 您能否使用价格更低的硬件进行训练?
    • 改用其他硬件是否会提升性能?
    • 型号有多大?哪种硬件可以优化其性能?
    • 就您的模型架构而言,哪种硬件是理想的选择?
  • 数据流水线。数据流水线需要 RAM 和 CPU 配额 您需要估算 流水线生成训练和测试数据集所需的配额。

您可能不会为每个流水线分配配额。您可以改为 分配流水线共享的配额在这种情况下,请确认 您有足够的配额来运行所有流水线,以及设置监控和 以防止单个错误的流水线耗尽所有配额。

正在估算配额

如需估算数据和训练流水线所需的配额,请查看 并据此做出估算如需估算传送配额,请尝试执行以下操作: 来预测服务的每秒查询次数。这些方法提供了一个基准。如 您在实验阶段开始设计解决方案的原型, 以获得更精确的配额估算值。

估算配额时,不仅要考虑生产的配额,还要考虑 也可用于正在进行的实验

检查您的理解情况

在选择用于执行预测的硬件时,您应始终选择 与训练模型相比,拥有更强大的硬件。
错误
正确。通常,训练需要比应用更大的硬件。
True

日志记录、监控和提醒

记录和监控生产模型的行为至关重要。Robust 监控基础设施,确认您的模型是否可靠, 高质量预测。

良好的日志记录和监控做法有助于主动识别机器学习中的问题 流水线并减轻潜在的业务影响。发生问题时 通知团队成员,全面的日志有助于诊断 问题的根本原因

您应实现日志记录和监控,以检测以下问题 机器学习流水线:

流水线 监控
处理流量
  • 与训练数据相比,服务数据出现偏差或偏移
  • 预测出现偏差或偏移
  • 数据类型问题,例如值缺失或损坏
  • 配额用量
  • 模型质量指标 <ph type="x-smartling-placeholder">
数据
  • 特征值的偏差和偏移
  • 标签值的偏差和偏移
  • 数据类型问题,例如值缺失或损坏
  • 配额使用率
  • 即将达到配额上限
培训
  • 训练时间
  • 训练失败
  • 配额用量
验证
  • 测试数据集出现偏差或偏移

您还需要针对以下内容进行日志记录、监控、提醒:

  • 延迟时间。提供预测结果需要多长时间?
  • 服务中断。模型是否已停止提供预测?

检查您的理解情况

以下哪一项是进行日志记录和监控的主要原因 机器学习流水线?
主动检测问题,以免影响用户
跟踪配额和资源用量
发现潜在的安全问题
以上都对
正确。记录和监控机器学习流水线有助于 及早诊断问题,避免严重问题。

部署模型

对于模型部署,您需要记录以下内容:

  • 开始部署和扩大部署范围需要批准。
  • 如何将模型投入生产环境。
  • 模型的部署位置,例如,如果有预演或 Canary 版, 环境
  • 部署失败时的处理方式。
  • 如何回滚已在生产环境中使用的模型。

自动执行模型训练后, 验证和部署自动执行部署分配 责任,并降低部署因以下原因而遭遇瓶颈的可能性 一个人。还能减少潜在错误、提高效率 可靠性,并且支持值班轮换和 SRE 支持。

通常,您要将新模型部署给一部分用户,以检查模型是否 行为与预期。如果是,请继续部署。如果不是, 回滚部署并开始诊断和调试问题。