与其比较手动组合的特征数据,不如将特征数据 将数据转化为称为 embeddings,比较 嵌入。嵌入的生成方法是训练一个监督式深度神经网络, 特征的网络 (DNN) 数据本身。嵌入将特征数据映射到嵌入中的向量。 其维度通常少于特征数据。嵌入是 嵌入部分 机器学习速成课程单元,我们会在 神经网络 模块。向量嵌入向量的类似示例,例如 相同的用户观看的相似主题,最终在嵌入中靠得很近 空间。监督式相似性度量 使用这种“紧密”量化特征对的相似性 示例。
请注意,我们讨论监督式学习只是为了让 衡量。然后,无论是手动还是监督式方法, 执行非监督式聚类的算法。
人工措施与监督措施对比
下表介绍了在什么情况下使用手动相似度或监督式相似度 您的具体要求
要求 | 手动 | 受监管 |
---|---|---|
是否消除关联特征中的冗余信息? | 不会,您需要调查特征之间的任何相关性。 | 是的,DNN 消除了冗余信息。 |
可让您深入了解计算出的相似性? | 是 | 否,无法解密嵌入。 |
适合特征数很少的小型数据集吗? | 是。 | 不能,小型数据集无法为 DNN 提供足够的训练数据。 |
适合具有许多特征的大型数据集吗? | 否,手动消除多项地图项中的冗余信息 然后再组合起来就非常困难了 | 是的,DNN 会自动消除冗余信息, 组合特征。 |
创建监督式相似性度量
下面简要介绍了创建监督式相似性度量的流程:
本页将介绍 DNN, 后续页面介绍了其余步骤。
根据训练标签选择 DNN
通过训练一个 DNN 模型将特征数据缩减为低维嵌入, 将相同的特征数据用作输入和标签。例如,在 对于房屋数据,DNN 会使用价格、大小和 邮政编码)来预测这些特征。
自动编码器
一种 DNN,可通过预测输入数据本身来学习输入数据嵌入 称为自动编码器。 由于自动编码器的隐藏层 与输入层和输出层相比,自动编码器被迫学习 输入特征数据的压缩表示法。DNN 在训练完成后 从最小的隐藏层中提取嵌入以计算相似度。
![该图显示了同一个 Pod 的大量节点
输入和输出数据,被压缩为中间的三个节点。
组成。](https://developers.google.cn/machine-learning/clustering/images/autoencoder.png?authuser=002&hl=zh-cn)
预测者
自动编码器是生成嵌入的最简单的选择。不过, 当某些特征可能更复杂时,自动编码器并不是最佳选择 判断相似性的重要程度。例如,内部数据 会假设价格比邮政编码更重要。在这种情况下,请使用 只有作为 DNN 训练标签的重要特征。由于该 DNN 预测特定的输入特征,而不是预测所有输入特征, 称为预测器 DNN。嵌入通常应从 最后一个嵌入层。
![显示输入矢量中大量节点的图
由三个隐藏层减少为一个三节点层,
提取嵌入。最后一个输出层是
标签值。](https://developers.google.cn/machine-learning/clustering/images/predictor.png?authuser=002&hl=zh-cn)
选择要标签特征的特征时:
首选数值特征而不是分类特征,因为损失 更容易计算和解释数值特征。
从 DNN 的输入中移除用作标签的特征,或者 否则 DNN 将使用该特征来准确预测输出。(这是 标签泄露的极端示例。)
根据您选择的标签,生成的 DNN 可以是 即自编码器或预测器。