机器学习术语表:聚类

此页面包含聚类术语表。如需了解所有术语表术语,请点击此处

应用

凝聚式聚类技术

#clustering

请参阅分层聚类

C

形心

#clustering

通过 k-averagek-median 算法确定的聚类中心。例如,如果 k 为 3,那么 k-average 或 k-median 算法会找出 3 个形心。

形心聚类

#clustering

一类聚类算法,可将数据整理到非分层集群中。k-令 是使用最广泛的形心聚类算法。

层次聚类算法相对。

聚类

#clustering

将相关示例分组,尤其是在非监督式学习期间。将所有样本分组后,用户可以选择为每个聚类提供含义。

许多聚类算法都存在。例如,

一个二维图表,其中 x 轴标记为“树宽”,y 轴标记为“树高”。该图包含两个形心和几十个数据点。数据点按照相似度分类。也就是说,最接近一个形心的数据点归类为“聚类 1”,而最接近另一个形心的数据点则归类为“聚类 2”。

然后,真人研究人员便可查看这些聚类,例如,将聚类 1 标记为“矮树”,将聚类 2 标记为“全尺寸树”。

再举一个例子,考虑一个基于样本到中心点的距离的聚类算法,如下所示:

几十个数据点排列在同心圆圈中,就像飞镖盘中心的空洞一样。最内层的数据点分类为“聚类 1”,中间的响铃分类为“聚类 2”,最外环归类为“聚类 3”。

D

划分聚类

#clustering

请参阅分层聚类

H

分层聚类

#clustering

一类聚类算法,用于创建聚类树。分层聚类非常适合分层数据,例如植物类目。层次聚类算法有两种类型:

  • 凝聚式聚类首先将每个样本分配给自己的聚类,然后迭代合并最近的聚类以创建分层树。
  • 多样化聚类首先将所有样本分组到一个集群中,然后递归将集群划分为一个分层树。

形心聚类形成对比。

K

K-平均值

#clustering

一种常用聚类算法,这种算法对非监督式学习中的样本进行分组。k-means 算法基本上执行以下操作:

  • 以迭代方式确定最佳的 k 中心点(称为形心)。
  • 将每个样本分配给最接近的形心。这些距离同一形心最近的样本属于同一组。

k-average 算法会选择形心位置,以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。

例如,假设有以下狗狗身高与狗狗宽度的对比图:

具有数十个数据点的笛卡尔图。

如果 k=3,k-average 算法会确定三个形心。每个样本都分配给最接近的形心,生成三个组:

添加上图中的笛卡尔图,但添加了三个形心。之前的数据点会被聚类为三个不同的组,其中每个组都代表最接近特定形心的数据点。

假设制造商想要确定狗狗小码、中码和大码毛衣的理想尺寸。三个形心标识该聚类中每只狗的平均高度和平均宽度。因此,制造商应根据这三个形心确定毛衣尺寸。请注意,聚类的形心通常不是聚类中的样本。

上面的图示显示了仅具有两个特征(高度和宽度)的示例的 k-average。请注意,k-means 可以将特征分组到许多特征中。

中位数

#clustering

k-average 密切相关的聚类算法。两者的实际区别如下:

  • k-平均值是指形心的平均值,方法是最大限度降低形心候选与每个样本之间的距离平方
  • 对于 k-中位数,确定形心时,需最大限度降低形心候选与每个样本之间的距离总和。

请注意,距离的定义也不同:

  • k-average 依赖于从形心到样本的欧几里得距离。(在二维空间中,欧几里得距离是指使用毕达哥拉斯定理来计算斜边。)例如,(2,2) 到 (5,-2) 之间的 k-average 值将如下所示:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 采用从形心到样本的 曼哈顿距离。此距离是每个维度中绝对增量的总和。例如,(2,2) 到 (5,-2) 之间的 k-中位数为:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

相似度衡量

#clustering

聚类算法中,用于确定两个样本的相似度(相似度)。

素描

#clustering

非监督式机器学习中,会对示例执行初步相似度分析的一类算法。素描算法使用 局部敏感哈希函数来识别可能相似的点,然后将其分组。

Sketching 可减少大型数据集的相似度计算所需的计算量。我们没有计算数据集内每对样本的相似度,而是仅计算每个桶中的每对点的相似度。

T

时序分析

#clustering

机器学习和统计信息的子字段,用于分析时间数据。许多类型的机器学习问题都需要时序分析,包括分类、聚类、预测和异常值检测。例如,您可以使用时序分析,根据历史销售数据预测未来冬季外套的销售情况。

U

非监督式机器学习

#clustering
#fundamentals

训练模型,以查找数据集(通常是无标签数据集)中的模式。

非监督式机器学习最常见的用途是数据聚类到类似的样本组中。例如,非监督式机器学习算法可以根据音乐的各种属性将歌曲聚类。生成的集群可以作为其他机器学习算法(例如音乐推荐服务)的输入。在缺少稀缺标签或缺少实用标签的情况下,聚类非常有用。 例如,在防滥用和欺诈等领域,聚类可以帮助人们更好地理解数据。

监督式机器学习相对。