数值数据:模型如何使用特征向量注入数据

到目前为止,我们仍认为模型会直接对 数据集的行数;但模型提取数据的方式实际上存在一些差异。

例如,假设某个数据集提供了五列,但其中只有两列。 列(bd)是模型中的特征。处理时 对于第 3 行中的示例,模型是否直接 突出显示了两个单元格(3b 和 3d),如下所示?

图 1. 直接从数据集中提取样本的模型。
            突出显示第 3 行的列 b 和 d 列。
图 1. 这与模型获取样本的方式不完全相符。

事实上,该模型实际上会提取一组称为 特征向量。您可以这样想 组成一个样本的浮点值。

图 2. 特征向量是数据集之间的中间层
            和模型。
图 2. 接近事实,但并不现实。

但是,特征向量很少使用数据集的原始值。 相反,您通常必须将数据集的值处理成表示法 模型可以更好地进行学习。因此, 特征向量可能如下所示:

图 3. 特征向量包含两个浮点值:
            0.13 和 0.47。更真实的特征向量。
图 3. 更真实的特征向量。

模型难道通过根据模型进行训练, 令人惊讶的是,答案是否定的。

您必须确定将原始数据集值表示为可训练值的最佳方式 特征向量中的值。 此过程称为 特征工程、 是机器学习的重要组成部分。 最常见的特征工程技术包括:

  • 标准化:转换 转换为标准范围。
  • 分箱(也称为 bucketing:对数值进行转换 将值划分到范围存储分区中。

本单元将介绍归一化和分箱。下一个单元是 使用分类数据, 涵盖了 预处理,例如 将非数字数据(如字符串)转换为浮点值。

特征向量中的每个值都必须是浮点值。不过,许多 特征是字符串或其他非数字值。因此, 很大一部分特征工程是将非数值表示为 数值。在后面的单元中,您会看到很多这样的例子。