聚类工作流

如需对数据进行聚类,请按以下步骤操作:

  1. 准备数据。
  2. 创建相似度指标。
  3. 运行聚类算法。
  4. 解读结果并调整您的聚类。

本页面简要介绍了步骤。我们将在后续部分中深入介绍。

聚类工作流的四个步骤

准备数据

与任何机器学习问题一样,您必须对特征数据进行归一化、缩放和转换。但是,在进行聚类时,您还必须确保准备好的数据能够准确地计算样本之间的相似度。接下来的部分将讨论这种注意事项。

创建相似度指标

在聚类算法对数据进行分组之前,它需要知道几对类似的样本。您可以通过创建相似度指标来量化示例之间的相似度。创建相似度指标时,您需要仔细了解数据以及如何从特征中获取相似度。

运行聚类算法

聚类算法使用相似度指标对数据进行聚类。本课程重点介绍 k-average。

解读结果并进行调整

检查聚类输出的质量是迭代和探索性的,因为聚类缺少可以验证输出的“事实”。您根据集群级和示例级的预期验证结果。如需改善结果,需要反复试验前面的步骤,看看它们对聚类有何影响。