AutoML:使用入门

如果您正在考虑使用 AutoML,您可能对它如何实现 以及开始使用时应执行哪些步骤。本部分将深入介绍 了解常见的 AutoML 模式,探讨 AutoML 的工作原理,并研究 在开始为项目使用 AutoML 之前可能需要完成的步骤。

AutoML 工具

AutoML 工具分为两大类:

  • 无需编码的工具通常采用 Web 应用的形式 可让您通过用户界面配置和运行实验, 为您的数据构建最佳模型,而无需编写任何代码。
  • API 和 CLI 工具可提供高级自动化功能,但需要更多 (有时显著增加)编程和机器学习专业知识。

相较于需要编码的 AutoML 工具, 无代码工具,但它们也可能更难使用。本单元着重介绍 使用无代码选项进行模型开发,但请注意,API 和 CLI 选项可以帮助您。

AutoML 工作流

我们来了解一下典型的机器学习工作流,看看使用 AutoML。工作流程中的高级步骤与您 自定义训练;主要区别在于 AutoML 会为您处理一些任务。

问题定义

任何机器学习工作流的第一步都是定义您的问题。当您使用 AutoML,请确保您选择的工具可以支持 机器学习项目的目标。大多数 AutoML 工具都支持各种监督式模型 机器学习算法和输入数据类型。

有关问题构建的详情, 机器学习问题构建简介

数据收集

您需要先收集自己的数据,然后才能开始使用 AutoML 工具 集中到一个数据源中。请查看产品文档 您的工具支持:数据源、数据集中的数据类型、大小 数据集的名称。

数据准备

在数据准备方面,AutoML 工具可以帮助您,但 工具可以自动完成所有工作,所以最好先完成一些工作 可以将您的数据导入到该工具中。AutoML 的数据准备过程类似于 手动训练模型所需的操作。如果您需要了解更多信息 如需了解如何准备数据以进行训练,请查看“数据准备” 部分。

如需详细了解如何准备数据,请参阅 处理数值数据处理分类数据 模块。

在导入 AutoML 训练数据之前,您需要完成以下事项 步骤:

  • 为数据加标签

    数据集中的每个样本都需要一个标签。

  • 清理数据并设置数据格式

    实际数据往往杂乱无章,因此请在使用前清理数据 。即使是使用 AutoML,您也需要确定 特定数据集和问题。这可能需要进行一些探索 在获得最佳结果之前,可能先运行多次 AutoML。

  • 执行特征转换

    某些 AutoML 工具可为您处理某些特征转换。但是,如果 您使用的工具不支持您所需的特征转换,或 则您后续可能需要执行转换 。

模型开发(使用无代码 AutoML)

AutoML 在训练期间为您处理工作。不过,在开始之前 您需要配置实验。如需设置 AutoML 训练,请执行以下操作: 则通常需要指定以下概要步骤:

  1. 导入数据

    如需导入数据,请指定数据源。导入期间 过程中,AutoML 工具会为每个数据值分配一个语义数据类型。

  2. 分析数据

    AutoML 产品通常会提供一些工具,用于在之前和之后分析数据集, 训练之后。您最好使用以下分析工具 来了解和验证您的数据,然后再开始 AutoML 运行。

  3. 优化数据

    AutoML 工具通常会提供相应机制来帮助您优化数据, 导入和训练之前。以下是您可能需要完成的一些任务 优化数据:

    • 语义检查:在导入期间,AutoML 工具会尝试确定 但这些只是猜测。 您应检查并更改分配给所有地图项的类型 则会发生此错误。

      例如,您可能将邮政编码以数字形式存储在 您的数据库。大多数 AutoML 系统会将数据检测为连续的 数值数据。对于邮政编码和用户而言,这是不正确的 则可能需要将语义类型更改为“分类”, 而不是连续。

    • 转换:某些工具允许用户自定义数据 转换。有时 当数据集包含需要预测的特征时, 以 AutoML 工具难以进行转换或组合的方式 没有帮助就能确定

      以您用于预测的住房数据集为例, 房屋的促销价。假设有个特征表示 为名为 description 的房屋信息添加说明, 希望使用这些数据来创建名为 description_length。一些 AutoML 系统提供了一些方法来使用自定义 转换。在此示例中,可能有一个 LENGTH 函数 来生成新的说明长度特征,如下所示: LENGTH(description)

  4. 配置 AutoML 运行参数

    运行训练实验的最后一步是选择几个 配置设置,告知该工具您希望如何训练模型。 虽然每个 AutoML 工具都有自己独特的一组配置选项, 您可能需要完成几项重要的配置任务 完成:

    • 选择您计划解决的机器学习问题类型。例如,您是否 如何解决分类或回归问题?
    • 选择数据集中的哪个列作为标签。
    • 选择要用于训练模型的特征集。
    • 选择 AutoML 在模型搜索中考虑的一组机器学习算法。
    • 选择 AutoML 在选择最佳模型的评估指标。

配置 AutoML 实验后,您就可以开始训练了 运行。训练可能需要一段时间(按小时数)完成。

评估模型

训练结束后,您可以使用 AutoML 中的工具来检查结果 可帮助您:

  • 通过检查特征重要性指标评估您的特征。
  • 通过检查所用的架构和超参数来了解模型 来构建它。
  • 使用实验期间收集的图表和指标评估顶层模型的性能 输出模型的训练。

生产化

虽然这不在本单元的讨论范围之内,但一些 AutoML 系统可以帮助您 测试和部署模型。

重新训练模型

您可能需要使用新数据重新训练模型。在您完成上述操作后, 评估 AutoML 训练运行,或在生产环境中进行 。无论采用哪种方式,AutoML 系统都可以帮助您进行再训练。不是 使用 AutoML 运行后再次查看数据的情况,并使用 改进的数据集。

后续步骤

恭喜您完成本单元的学习!

我们建议您探索各种 MLCC 模块 自己的节奏和兴趣如果您想遵循建议顺序 我们建议您接下来学习以下单元: 机器学习公平性