机器学习术语表:聚类

本页包含“聚类”术语表中的术语。如需查看所有术语表术语,请点击此处

A

凝聚式层次聚类

#clustering

请参阅层次聚类

C

形心

#clustering

k-meansk-median 算法确定的集群中心。例如,如果 k 为 3,则 k-means 或 k-median 算法会找出 3 个形心。

如需了解详情,请参阅“聚类”课程中的聚类算法

基于质心的聚类

#clustering

一类聚类算法,用于将数据整理为非分层聚类。k-means 是使用最广泛的基于质心的聚类算法。

层次聚类算法相对。

如需了解详情,请参阅“聚类”课程中的聚类算法

聚类

#clustering

对相关的示例进行分组,尤其是在非监督式学习期间。在所有样本均分组完毕后,相关人员便可选择性地为每个聚类赋予含义。

聚类算法有很多。例如,k-means 算法会根据示例与中心点的接近程度对示例进行聚类,如下图所示:

一个二维图表,其中 x 轴标记为树宽,y 轴标记为树高。该图表包含两个重心和几十个数据点。系统会根据数据点之间的距离对其进行分类。也就是说,距离某个质心最近的数据点被归类为簇 1,而距离另一个质心最近的数据点被归类为簇 2。

之后,研究人员便可查看这些聚类并进行其他操作,例如,将聚类 1 标记为“矮型树”,将聚类 2 标记为“全尺寸树”。

再举一个例子,例如基于样本与中心点距离的聚类算法,如下所示:

数十个数据点呈同心圆形排列,几乎就像是飞镖靶中心周围的孔洞。最内层的数据点环形被归类为集群 1,中间环形被归类为集群 2,最外层环形被归类为集群 3。

如需了解详情,请参阅“聚类”课程

D

分裂式层次聚类

#clustering

请参阅层次聚类

H

层次聚类

#clustering

一类聚类算法,用于创建聚类树。层次聚类非常适合分层数据,例如植物分类。层次聚类算法有两种类型:

  • 凝聚式层次聚类首先将每个样本分配到其自己的聚类,然后以迭代方式合并最近的聚类,以创建层次树。
  • 分裂式层次聚类首先将所有样本分组到一个聚类,然后以迭代方式将该聚类划分为一个层次树。

基于中心点的聚类相对。

如需了解详情,请参阅“聚类”课程中的聚类算法

K

k-means

#clustering

一种热门的聚类算法,用于对非监督式学习中的样本进行分组。k-means 算法基本上会执行以下操作:

  • 以迭代方式确定最佳的 k 中心点(称为形心)。
  • 将每个样本分配到最近的形心。与同一个形心距离最近的样本属于同一个组。

k-means 算法会挑选形心位置,以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。

例如,请考虑以下狗的高度与宽度图表:

包含数十个数据点的直角坐标图。

如果 k=3,k-means 算法将确定三个中心点。每个示例都会分配给其最近的质心,从而产生三个组:

与上图相同的笛卡尔图,但添加了三个质心。
          之前的数据点会聚类到三个不同的组中,每个组都代表最接近特定质心的那些数据点。

假设某制造商想要确定小型、中型和大型狗狗毛衣的理想尺寸。这三个重心确定了该群组中每只狗的平均高度和平均宽度。因此,制造商应该根据这三个质心点确定毛衣尺码。请注意,集群的重心通常不是集群中的示例。

上图显示了仅包含两个特征(高度和宽度)的示例的 K 均值。请注意,k-means 可以对许多特征中的示例进行分组。

k-median

#clustering

k-means 紧密相关的聚类算法。两者的实际区别如下:

  • 对于 k-means,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离平方和。
  • 对于 k-median,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离总和。

请注意,距离的定义也有所不同:

  • k-means 采用从形心到样本的欧几里得距离。(在二维空间中,欧几里得距离即使用勾股定理计算斜边。)例如,(2,2) 与 (5,-2) 之间的 k-means 距离为:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 采用从形心到样本的 曼哈顿距离。这个距离是每个维度中绝对差值的总和。例如,(2,2) 与 (5,-2) 之间的 k-median 距离为:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

相似度度量

#clustering

聚类算法中,用于确定任何两种样本相似程度的指标。

粗略分析

#clustering

非监督式机器学习中的一类算法,针对样本执行初步相似性分析。粗略分析算法使用 局部敏感哈希函数确定有可能相似的点,然后将这些点分组到桶中。

粗略分析减少了计算大型数据集相似性所需的计算量。我们仅计算每个桶中的每对点的相似性,而不是计算数据集内每对样本的相似性。

T

时间序列分析

#clustering

机器学习和统计学的一个子领域,旨在分析时态数据。许多类型的机器学习问题都需要进行时间序列分析,包括分类、聚类、预测和异常检测。例如,您可以利用时间序列分析根据历史销量数据预测未来每月的冬外套销量。

U

非监督式机器学习

#clustering
#fundamentals

训练模型,以找出数据集(通常是无标签数据集)内的规律。

非监督式机器学习最常见的用途是将数据分为不同的聚类,使相似的样本位于同一组中。例如,无监督机器学习算法可以根据音乐的各种属性对歌曲进行分组。生成的集群可以成为其他机器学习算法(例如音乐推荐服务)的输入。当缺少实用标签或没有实用标签时,聚类功能会很有帮助。例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解数据。

监督式机器学习相对。