与其比较手动组合的特征数据,不如将特征数据 将数据转化为称为 embeddings,比较 嵌入。嵌入的生成方法是训练一个监督式深度神经网络, 特征的网络 (DNN) 数据本身。嵌入将特征数据映射到嵌入中的向量。 其维度通常少于特征数据。嵌入是 嵌入部分 机器学习速成课程单元,我们会在 神经网络 模块。向量嵌入向量的类似示例,例如 相同的用户观看的相似主题,最终在嵌入中靠得很近 空间。监督式相似性度量 使用这种“紧密”量化特征对的相似性 示例。
请注意,我们讨论监督式学习只是为了让 衡量。然后,无论是手动还是监督式方法, 执行非监督式聚类的算法。
人工措施与监督措施对比
下表介绍了在什么情况下使用手动相似度或监督式相似度 您的具体要求
要求 | 手动 | 受监管 |
---|---|---|
是否消除关联特征中的冗余信息? | 不会,您需要调查特征之间的任何相关性。 | 是的,DNN 消除了冗余信息。 |
可让您深入了解计算出的相似性? | 是 | 否,无法解密嵌入。 |
适合特征数很少的小型数据集吗? | 是。 | 不能,小型数据集无法为 DNN 提供足够的训练数据。 |
适合具有许多特征的大型数据集吗? | 否,手动消除多项地图项中的冗余信息 然后再组合起来就非常困难了 | 是的,DNN 会自动消除冗余信息, 组合特征。 |
创建监督式相似性度量
下面简要介绍了创建监督式相似性度量的流程:
本页将介绍 DNN, 后续页面介绍了其余步骤。
根据训练标签选择 DNN
通过训练一个 DNN 模型将特征数据缩减为低维嵌入, 将相同的特征数据用作输入和标签。例如,在 对于房屋数据,DNN 会使用价格、大小和 邮政编码)来预测这些特征。
自动编码器
一种 DNN,可通过预测输入数据本身来学习输入数据嵌入 称为自动编码器。 由于自动编码器的隐藏层 与输入层和输出层相比,自动编码器被迫学习 输入特征数据的压缩表示法。DNN 在训练完成后 从最小的隐藏层中提取嵌入以计算相似度。
预测者
自动编码器是生成嵌入的最简单的选择。不过, 当某些特征可能更复杂时,自动编码器并不是最佳选择 判断相似性的重要程度。例如,内部数据 会假设价格比邮政编码更重要。在这种情况下,请使用 只有作为 DNN 训练标签的重要特征。由于该 DNN 预测特定的输入特征,而不是预测所有输入特征, 称为预测器 DNN。嵌入通常应从 最后一个嵌入层。
选择要标签特征的特征时:
首选数值特征而不是分类特征,因为损失 更容易计算和解释数值特征。
从 DNN 的输入中移除用作标签的特征,或者 否则 DNN 将使用该特征来准确预测输出。(这是 标签泄露的极端示例。)
根据您选择的标签,生成的 DNN 可以是 即自编码器或预测器。