本部分介绍与聚类最相关的数据准备步骤 从 处理数值数据 “机器学习速成课程”单元
在聚类中,您可以通过组合多个样本来计算 将这些样本的所有特征数据转换为数值。这需要使用 让特征具有相同的规模,这可以通过归一化、 转换或创建分位数。如果您想将 而不检查其分布,可以默认为分位数。
对数据进行归一化
您可以通过标准化,将多个特征的数据转换为相同比例 数据。
Z 得分
每当您看到大致形状为 高斯分布, 您应计算 z-scores 数据。Z 分数是某个值与 平均值。如果数据集不够大,您也可以使用 Z-score 分位数。
请参阅 Z 得分缩放 以查看相关步骤。
下图直观呈现了数据集前后两个特征 z-score 缩放:
在左侧的非规范化数据集中,特征 1 和特征 2 为: 它们在 x 轴和 y 轴上分别绘制的比例不同。在 红色样本 表示颜色比蓝色更接近或更接近于黄色。在右侧,在 z-score 缩放,特征 1 和特征 2 具有相同的比例,并且红色的 与黄色示例更接近,标准化数据集提供了一个 可以更准确地衡量点之间的相似性。
日志转换
当数据集完全符合 幂律分布,其中数据 大量聚集在最小值时,请使用对数转换。请参阅 日志扩缩 以查看相关步骤。
下图所示为对数转换前后的幂律数据集:
在对数缩放(图 2)之前,红色示例看起来更接近于黄色。 对数缩放(图 3)后,红色看起来更接近蓝色。
分位数
如果数据集不符合 已知分布。以下面的数据集为例:
直观地说,如果两个样本之间只有几个样本比较相似 无论其值如何,如果有多个样本, 。上面的图表难以了解 介于红色和黄色之间或红色和蓝色之间的样本数量。
这种对相似性的理解可以通过将数据集划分为 分位数,即包含相等数量样本的区间;以及 为每个样本分配分位数索引。请参阅 分桶 以查看相关步骤。
这里是上一个划分为分位数的分布图,其中红色表示 一个分位数距离黄色,三个分位数距离蓝色:
您可以选择任意数量的 \(n\) 分位数。不过,对于 有意义地表示底层数据,则您的数据集应至少具有 \(10n\) 示例。如果没有足够的数据,请改为标准化。
检查您的理解情况
对于以下问题,请假设您有足够的数据来创建分位数。
问题 1
- 数据分布为高斯分布。
- 您对这些数据在真实案例中的代表有一定的了解, 表明数据不应进行非线性转换。
问题 2
缺失数据
如果数据集中的样本的某个特定特征缺少值, 这些示例很少出现,您可以将其移除。如果这些示例 则可以完全移除该功能 或者,你可以使用机器 机器学习模型。例如,您可以 估计缺失的数值数据 使用 使用现有特征数据训练的回归模型。