假设您要处理的数据集包含 医疗保健系统。该数据集非常复杂,包含分类数据和 数值特征。您想要找出数据集中的规律和相似之处。 如何完成这项任务?
聚类是一种非监督式方法, 机器学习方法, 无标签样本 根据彼此之间的相似性进行选择。(如果样本带有标签, 这种分组方式称为 classification。) 假设患者 旨在评估新治疗方案的研究。研究期间,患者 报告他们每周出现症状的次数以及 症状。研究人员可以使用聚类分析将具有相似特征的患者分组 将实验组响应划分为聚类。图 1 展示了一个可能的分组 分为三个聚类。
看一下图 1 左侧未加标签的数据,您也许会猜测出 即使没有正式的相似性定义,数据也会形成三个聚类 数据点之间的距离。但在实际应用中,您需要明确 定义相似度度量(即用于比较样本的指标), 数据集特征的术语。如果样本只有几个特征, 直观呈现和衡量相似度的过程非常简单。但随着 功能增加,组合和比较功能变得不那么直观 更为复杂。不同的相似性度量可能较为合适或不太合适 不同的聚类场景,本课程将介绍如何选择 适当的相似性度量: 手动相似度衡量 和 嵌入的相似度衡量。
聚簇后,每个组都分配有一个唯一标签,称为集群 ID。 聚类的强大之处在于,它可以简化大型、复杂的数据集, 单个集群 ID。
聚类用例
聚类在各行业中都很有用。一些常见应用 进行聚类:
- 市场细分
- 社交网络分析
- 搜索结果分组
- 医学影像
- 图片分割
- 异常值检测
下面是一些具体的聚类示例:
- Hertzsprung-Russell 示意图 按亮度和温度绘制星团。
- 基因测序显示以前未知的基因相似性和 物种之间的相似性促使其对分类方法进行了修正 以前是基于外观构建的。
- 五大巨头 这些人格特征模型是通过对字词进行聚类 将性格分为 5 组。通过 十六进制 模型使用了 6 个集群,而不是 5 个。
插补
当聚类中的某些样本缺少特征数据时,您可以推断出 缺少来自集群中其他样本的数据。这称为 插补。 例如,可以将不太热门的视频与较多的热门视频汇集在一起。 来改进视频推荐功能。
数据压缩
如前所述,相关集群 ID 可以为所有集群 示例。这种替换会减少特征的数量, 也能减少存储、处理和训练模型所需的资源 数据。对于非常大的数据集,这样节省的费用就相当可观。
举个例子,单个 YouTube 视频可以具有如下特征数据:
- 观看者的地理位置、时间和受众特征
- 评论时间戳、文字和用户 ID
- 视频标签
对 YouTube 视频进行聚类将这组功能替换为 单个集群 ID,从而压缩数据。
隐私保护
您可以通过对用户进行分组和关联用户数据在一定程度上保护隐私 使用集群 ID 而非用户 ID。举一个可能的例子,假设您希望 使用 YouTube 用户的观看记录。不传递 User-ID 传递给模型,您可以对用户进行聚类,并仅传递集群 ID。这个 可以防止将单个观看记录附加到单个用户。注意事项 集群必须包含足够数量的用户 保护隐私。