此页面由 Cloud Translation API 翻译。

机器学习术语表：聚类

本页面包含聚类术语表。如需查看所有术语表术语，请点击此处。

A

凝聚式层次聚类

#clustering

请参阅层次聚类。

C

形心

#clustering

由 k-means 或 k-median 算法确定的聚类中心。例如，如果 k 为 3，则 k-means 或 k-median 算法会找到 3 个形心。

形心聚类

#clustering

一类聚类算法，用于将数据整理为非层次聚类。k-means 是使用最广泛的形心聚类算法。

与层次聚类算法相对。

聚类

#clustering

对相关样本进行分组，尤其是在非监督式学习期间。将所有样本分组之后，人员就可以选择为每个聚类提供含义。

聚类算法有很多。例如，k-means 算法的聚类根据样本与形心的接近程度进行聚类，如下图所示：

一个二维图形，其中 x 轴标记为树形宽度，y 轴标记为树高。该图包含两个形心和几十个数据点。数据点根据其邻近度进行分类。也就是说，最接近一个形心的数据点归类为聚类 1，而最接近另一个形心的数据点则归类为聚类 2。

然后，人类研究人员可以审核这些聚类，例如，将聚类 1 标记为“矮树”，将聚类 2 标记为“全尺寸树”。

再举一个例子，考虑基于样本与中心点距离的聚类算法，如下所示：

数十个数据点排列成同心圆，几乎就像飞镖盘中心周围的孔。最内层的数据点环归类为集群 1，中间环归类为集群 2，最外环归类为集群 3。

D

分裂式聚类

#clustering

请参阅层次聚类。

H

层次聚类

#clustering

一类聚类算法，用于创建聚类树。分层聚类非常适合分层数据，例如植物分类。层次聚类算法有两种类型：

凝聚式聚类首先将每个样本分配到其自己的聚类，然后以迭代方式合并最近的聚类，以创建层次树。
分离式聚类首先将所有样本分组到一个集群中，然后以迭代方式将该聚类划分为一个层次结构树。

与形心聚类相对。

K

k-means

#clustering

一种热门的聚类算法，用于对非监督式学习中的样本进行分组。k-means 算法基本上会执行以下操作：

以迭代方式确定最佳的 k 中心点（称为形心）。
将每个样本分配到最接近的形心。与同一个形心最近的样本属于同一个组。

k-means 算法会挑选形心位置，以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。

例如，请参考以下小狗高度与狗宽度的关系图：

包含数十个数据点的笛卡尔图。

如果 k=3，则 k-means 算法会确定三个形心。每个样本都被分配到与其最接近的形心，从而产生三个组：

与上图相同的笛卡尔图，但添加了三个形心。
前面的数据点被划分为三个不同的组，每个组表示最接近特定形心的数据点。

假设制造商想要确定小号、中号和大号狗狗毛衣的理想尺寸。三个形心用于标识该聚类中每只狗的平均高度和平均宽度。因此，制造商可能应该根据这三个形心来确定毛衣尺寸。请注意，聚类的形心通常不是聚类中的样本。

上图显示了只有两个特征（高度和宽度）的样本的 k-means。请注意，k-means 可以跨多个特征对样本进行分组。

k-median

#clustering

与 k-means 紧密相关的聚类算法。两者的实际区别如下：

对于 k-means，确定形心的方法是，最大限度地减小候选形心与它的每个样本之间的距离平方和。
对于 k-median，确定形心的方法是，最大限度地减小候选形心与它的每个样本之间的距离总和。

请注意，距离的定义也不同：

k-means 采用从形心到样本的欧几里得距离。（在二维空间中，欧几里得距离意味着使用勾股定理计算斜边。）例如，(2,2) 与 (5,-2) 之间的 k-means 距离为：

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median 采用从形心到样本的曼哈顿距离。该距离是每个维度中绝对增量的总和。例如，(2,2) 与 (5,-2) 之间的 k-median 距离为：

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

南

相似度度量

#clustering

在聚类算法中，用于确定任何两个样本的相似度（相似程度）的指标。

素描

#clustering

非监督式机器学习中的一类算法，对样本执行初步相似度分析。草拟算法使用局部敏感哈希函数来识别可能相似的点，然后将其分组到存储分区中。

草图可以减少计算大型数据集相似度所需的计算量。我们仅计算每个存储分区内的每对点的相似度，而不是计算数据集内每对样本的相似度。

T

时序分析

#clustering

机器学习和统计学的一个子领域，用于分析时态数据。许多类型的机器学习问题都需要时间序列分析，包括分类、聚类、预测和异常检测。例如，您可以使用时间序列分析，根据历史销售数据，预测未来每个月冬季外套的销量。

U

非监督式机器学习

#clustering

#fundamentals

训练模型model，以找出数据集（通常是无标签数据集）中的规律。

非监督式机器学习最常见的用途是将数据聚类为类似的样本组。例如，非监督式机器学习算法可以根据音乐的各种属性对歌曲进行聚类。生成的聚类可以作为其他机器学习算法（例如音乐推荐服务）的输入。当有用的标签不足或缺失时，聚类会有所帮助。例如，在反滥用和反欺诈等领域，聚类有助于人们更好地了解数据。

与监督式机器学习相对。

点击该图标可查看其他备注。

非监督式机器学习的另一个例子是主成分分析 (PCA)。例如，通过对包含数百万购物车内物品的数据集进行主成分分析，可能会发现包含柠檬的购物车通常也含有抗酸药。