本页面包含聚类术语表。如需查看所有术语表术语,请点击此处。
A
凝聚式层次聚类
请参阅层次聚类。
C
形心
由 k-means 或 k-median 算法确定的聚类中心。例如,如果 k 为 3,则 k-means 或 k-median 算法会找到 3 个形心。
形心聚类
一类聚类算法,用于将数据整理为非层次聚类。k-means 是使用最广泛的形心聚类算法。
与层次聚类算法相对。
聚类
对相关样本进行分组,尤其是在非监督式学习期间。将所有样本分组之后,人员就可以选择为每个聚类提供含义。
聚类算法有很多。例如,k-means 算法的聚类根据样本与形心的接近程度进行聚类,如下图所示:
然后,人类研究人员可以审核这些聚类,例如,将聚类 1 标记为“矮树”,将聚类 2 标记为“全尺寸树”。
再举一个例子,考虑基于样本与中心点距离的聚类算法,如下所示:
D
分裂式聚类
请参阅层次聚类。
H
层次聚类
一类聚类算法,用于创建聚类树。分层聚类非常适合分层数据,例如植物分类。层次聚类算法有两种类型:
- 凝聚式聚类首先将每个样本分配到其自己的聚类,然后以迭代方式合并最近的聚类,以创建层次树。
- 分离式聚类首先将所有样本分组到一个集群中,然后以迭代方式将该聚类划分为一个层次结构树。
与形心聚类相对。
K
k-means
一种热门的聚类算法,用于对非监督式学习中的样本进行分组。k-means 算法基本上会执行以下操作:
- 以迭代方式确定最佳的 k 中心点(称为形心)。
- 将每个样本分配到最接近的形心。与同一个形心最近的样本属于同一个组。
k-means 算法会挑选形心位置,以最大限度地减小每个样本与其最接近形心之间的距离的累积平方。
例如,请参考以下小狗高度与狗宽度的关系图:
如果 k=3,则 k-means 算法会确定三个形心。每个样本都被分配到与其最接近的形心,从而产生三个组:
假设制造商想要确定小号、中号和大号狗狗毛衣的理想尺寸。三个形心用于标识该聚类中每只狗的平均高度和平均宽度。因此,制造商可能应该根据这三个形心来确定毛衣尺寸。请注意,聚类的形心通常不是聚类中的样本。
上图显示了只有两个特征(高度和宽度)的样本的 k-means。请注意,k-means 可以跨多个特征对样本进行分组。
k-median
与 k-means 紧密相关的聚类算法。两者的实际区别如下:
- 对于 k-means,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离平方和。
- 对于 k-median,确定形心的方法是,最大限度地减小候选形心与它的每个样本之间的距离总和。
请注意,距离的定义也不同:
- k-means 采用从形心到样本的欧几里得距离。(在二维空间中,欧几里得距离意味着使用勾股定理计算斜边。)例如,(2,2) 与 (5,-2) 之间的 k-means 距离为:
- k-median 采用从形心到样本的 曼哈顿距离。该距离是每个维度中绝对增量的总和。例如,(2,2) 与 (5,-2) 之间的 k-median 距离为:
南
相似度度量
在聚类算法中,用于确定任何两个样本的相似度(相似程度)的指标。
素描
非监督式机器学习中的一类算法,对样本执行初步相似度分析。草拟算法使用 局部敏感哈希函数来识别可能相似的点,然后将其分组到存储分区中。
草图可以减少计算大型数据集相似度所需的计算量。我们仅计算每个存储分区内的每对点的相似度,而不是计算数据集内每对样本的相似度。
T
时序分析
机器学习和统计学的一个子领域,用于分析时态数据。许多类型的机器学习问题都需要时间序列分析,包括分类、聚类、预测和异常检测。例如,您可以使用时间序列分析,根据历史销售数据,预测未来每个月冬季外套的销量。
U
非监督式机器学习
训练模型model,以找出数据集(通常是无标签数据集)中的规律。
非监督式机器学习最常见的用途是将数据聚类为类似的样本组。例如,非监督式机器学习算法可以根据音乐的各种属性对歌曲进行聚类。生成的聚类可以作为其他机器学习算法(例如音乐推荐服务)的输入。当有用的标签不足或缺失时,聚类会有所帮助。例如,在反滥用和反欺诈等领域,聚类有助于人们更好地了解数据。
与监督式机器学习相对。