聚簇工作流

如需对数据进行聚类,请按以下步骤操作:

  1. 准备数据。
  2. 创建相似性指标。
  3. 运行聚类算法。
  4. 解释结果并调整聚类。

本页面简要介绍了相关步骤。稍后,我们将深入介绍 部分。

与任何机器学习问题一样,您必须对特征数据进行归一化、扩缩和转换 然后再基于这些数据训练或微调模型。此外,在 请检查所准备的数据是否可让您准确计算 相似度。

创建相似度指标

聚类算法在对数据进行分组之前,需要先知道 都是什么样的。可以通过以下方法量化样本之间的相似性: 创建相似性指标,这需要仔细了解您的 数据。

运行聚类算法

聚类算法使用相似性指标对数据进行聚类。 本课程使用 k-means。

解读结果和调整

因为聚类不会生成或包含标准“真实信息”你可以抵御这些攻击 可以验证输出,因此请务必根据您的 在集群级别和示例级别进行衡量。如果结果 看起来很奇怪或质量不佳,请用前三个步骤进行实验。继续 直到输出质量符合您的需求。