聚簇工作流

如需对数据进行分组,请按以下步骤操作:

  1. 准备数据。
  2. 创建相似度指标。
  3. 运行聚类算法。
  4. 解读结果并调整聚类。

本页面简要介绍了这些步骤。我们将在后续部分进行深入介绍。

准备数据

与任何机器学习问题一样,您必须先对特征数据进行归一化、缩放和转换,然后才能基于这些数据训练或微调模型。此外,在进行聚类之前,请检查准备的数据是否可让您准确计算示例之间的相似性。

创建相似度指标

在聚类算法能够对数据进行分组之前,它需要知道示例对的相似程度。您可以通过创建相似度指标来量化示例之间的相似度,这需要您仔细了解自己的数据。

运行聚类算法

聚类算法使用相似度指标对数据进行聚类。本课程使用 k-means 算法。

解读结果并做出调整

由于聚类不会产生或包含可用于验证输出的标准答案,因此请务必在集群级别和示例级别检查结果是否符合您的预期。如果结果看起来很奇怪或画质较差,请尝试前三步。继续迭代,直到输出质量符合您的需求。