数据准备

本部分介绍与聚类最相关的数据准备步骤 从 处理数值数据 “机器学习速成课程”单元

在聚类中,您可以通过组合多个样本来计算 将这些样本的所有特征数据转换为数值。这需要使用 让特征具有相同的规模,这可以通过归一化、 转换或创建分位数。如果您想将 而不检查其分布,可以默认为分位数。

对数据进行归一化

您可以通过标准化,将多个特征的数据转换为相同比例 数据。

Z 得分

每当您看到大致形状为 高斯分布, 您应计算 z-scores 数据。Z 分数是某个值与 平均值。如果数据集不够大,您也可以使用 Z-score 分位数。

请参阅 Z 得分缩放 以查看相关步骤。

下图直观呈现了数据集前后两个特征 z-score 缩放:

比较标准化前后特征数据的两个图表
图 1:标准化前后的特征数据比较。

在左侧的非规范化数据集中,特征 1 和特征 2 为: 它们在 x 轴和 y 轴上分别绘制的比例不同。在 红色样本 表示颜色比蓝色更接近或更接近于黄色。在右侧,在 z-score 缩放,特征 1 和特征 2 具有相同的比例,并且红色的 与黄色示例更接近,标准化数据集提供了一个 可以更准确地衡量点之间的相似性。

日志转换

当数据集完全符合 幂律分布,其中数据 大量聚集在最小值时,请使用对数转换。请参阅 日志扩缩 以查看相关步骤。

下图所示为对数转换前后的幂律数据集:

大部分数据位于低端的条形图
图 2:幂定律分布。
显示正态(高斯)分布的图表
图 3:图 2 的对数转换。

在对数缩放(图 2)之前,红色示例看起来更接近于黄色。 对数缩放(图 3)后,红色看起来更接近蓝色。

分位数

如果数据集不符合 已知分布。以下面的数据集为例:

显示任何预处理之前的数据分布的图
图 4:任何预处理之前的不可分类分布。

直观地说,如果两个样本之间只有几个样本比较相似 无论其值如何,如果有多个样本, 。上面的图表难以了解 介于红色和黄色之间或红色和蓝色之间的样本数量。

这种对相似性的理解可以通过将数据集划分为 分位数,即包含相等数量样本的区间;以及 为每个样本分配分位数索引。请参阅 分桶 以查看相关步骤。

这里是上一个划分为分位数的分布图,其中红色表示 一个分位数距离黄色,三个分位数距离蓝色:

显示转化之后的数据的图表
  转换为分位数。该线表示 20 个间隔。]
图 5:转换为 20 个分位数后,图 4 中的分布情况。

您可以选择任意数量的 \(n\) 分位数。不过,对于 有意义地表示底层数据,则您的数据集应至少具有 \(10n\) 示例。如果没有足够的数据,请改为标准化。

检查您的理解情况

对于以下问题,请假设您有足够的数据来创建分位数。

问题 1

显示三种数据分布的图表
您应该如何处理上文中显示的数据分布 图表?
创建分位数。
正确。由于分布情况与 标准数据分布,您应该默认为 创建分位数。
标准化。
在以下情况下,您通常需要对数据进行标准化:
  • 数据分布为高斯分布。
  • 您对这些数据在真实案例中的代表有一定的了解, 表明数据不应进行非线性转换。
。 这两种情况在这里均不适用。数据分布不是高斯分布, 不对称您并不知道这些值 它们在现实世界中的代表性。
对数转换。
这并非完美的幂律分布,因此请勿使用对数 转换。

问题 2

显示三种数据分布的图表
您会如何处理这些数据分布?
标准化。
正确。这是高斯分布。
创建分位数。
错误。由于这是高斯分布, 也就是归一化。
对数转换。
错误。仅对幂律分布应用对数转换。

缺失数据

如果数据集中的样本的某个特定特征缺少值, 这些示例很少出现,您可以将其移除。如果这些示例 则可以完全移除该功能 或者,你可以使用机器 机器学习模型。例如,您可以 估计缺失的数值数据 使用 使用现有特征数据训练的回归模型。