Google 会使用 AI 技术将内容翻译成您偏好的语言。AI 翻译可能包含错误。

聚簇工作流

如需对数据进行分组，请按以下步骤操作：

准备数据。
创建相似度指标。
运行聚类算法。
解读结果并调整聚类。

本页面简要介绍了这些步骤。我们将在后续部分进行深入介绍。

准备数据

与任何机器学习问题一样，您必须先对特征数据进行归一化、缩放和转换，然后才能基于这些数据训练或微调模型。此外，在进行聚类之前，请检查准备的数据是否可让您准确计算示例之间的相似性。

创建相似度指标

在聚类算法能够对数据进行分组之前，它需要知道示例对的相似程度。您可以通过创建相似度指标来量化示例之间的相似度，这需要您仔细了解自己的数据。

运行聚类算法

聚类算法使用相似度指标对数据进行聚类。本课程使用 k-means 算法。

解读结果并做出调整

由于聚类不会产生或包含可用于验证输出的标准答案，因此请务必在集群级别和示例级别检查结果是否符合您的预期。如果结果看起来很奇怪或画质较差，请尝试前三步。继续迭代，直到输出质量符合您的需求。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-10-01。