机器学习流水线概览

恭喜!模型可以部署到生产环境机器学习流水线。本课程的这一部分介绍了机器学习流水线的测试指南。但是,本部分不会演示这些准则,因为在沙盒环境中无法进行此类演示。

您将了解以下内容:

  • 针对发布和生产编写合适的测试。
  • 使用测试检测机器学习流水线中的故障模式。
  • 在生产环境中评估模型质量。

什么是机器学习流水线?

如图所示,机器学习流水线由多个组件组成。我们稍后会熟悉这些组件。目前,请注意“模型”(黑框)是生产机器学习所需的流水线基础架构的一小部分。

典型机器学习流水线的示意图。该示意图显示了几个框,每个流水线组件对应一个框。方框中标有“模型”框。其他框则排列在“模型”框周围。这些框会带有以下标签:数据收集、数据验证、机器资源管理、服务基础架构、功能提取、分析工具、进程管理工具、配置和监控。
图 1:典型机器学习流水线的示意图。

测试在机器学习流水线中的作用

在软件开发中,理想的工作流程是遵循测试驱动型开发 (TDD)。不过,在机器学习中,从测试开始并非易事。您的测试取决于您的数据、模型和问题。例如,在训练模型之前,您无法编写测试来验证损失。而是会在模型开发期间发现可实现的损失,然后根据可实现的损失测试新的模型版本。

您需要针对以下内容进行测试:

  • 正在验证输入数据。
  • 验证特征工程。
  • 正在验证新模型版本的质量。
  • 正在验证服务基础架构。
  • 测试流水线组件之间的集成。