此页面由 Cloud Translation API 翻译。

手动相似度衡量

如刚才所示，k-means 会将点分配给它们最近的质心。但“最接近”是什么意思？

如需将 k-means 应用于特征数据，您需要定义一种将所有特征数据合并为单个数值的相似度衡量标准，称为手动相似度衡量标准。

考虑一个鞋子数据集。如果该数据集的唯一特征是鞋码，则您可以根据两只鞋的尺寸差异来定义两只鞋的相似性。尺码之间的数值差异越小，鞋子之间的相似度就越高。

如果该鞋子数据集包含两个数值特征（尺码和价格），您可以将它们组合成一个表示相似度的数字。首先，对数据进行缩放，使这两个特征具有可比性：

接下来，通过计算均方根误差 (RMSE) 来组合这两个特征。此粗略的相似度衡量方法由\(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)给出。

举个简单的例子，计算两双鞋子的相似度，一双鞋子的美国尺码为 8，另一双鞋子的美国尺码为 11，价格分别为 120 美元和 150 美元。由于我们没有足够的数据来了解分布情况，因此我们将在不归一化或使用百分位数的情况下对数据进行缩放。

直观地讲，特征数据越相似，相似度衡量值就应该越高。相反，相似度衡量值 (RMSE) 实际上会降低。将相似度测量值从 1 中减去，使其符合直觉。

\[\text{Similarity} = 1 - 0.17 = 0.83\]

通常，您可以按照准备数据中所述的方式准备数值数据，然后使用欧几里得距离来合并数据。

如果该数据集同时包含鞋码和鞋子颜色，该怎么办？颜色属于分类数据，如需了解详情，请参阅机器学习速成课程中的处理分类数据部分。分类数据更难与数值大小数据结合使用。它可以是：

如果单值数据匹配（例如，两双蓝色鞋子），则示例之间的相似性为 1。否则，相似度为 0。

多值数据（例如电影类型）较难处理。如果电影类型是固定的，则可以使用共同值的比率来计算相似度，称为 Jaccard 相似度。Jaccard 相似性计算示例：

Jaccard 相似度并非对分类数据进行手动相似度衡量的唯一可能方法。下面是另外两个示例：

如需了解详情，请参阅处理分类数据。

一般来说，手动相似度衡量标准必须直接与实际相似度相对应。如果您选择的指标不符合上述条件，则表示该指标未编码您希望编码的信息。

请先仔细预处理数据，然后再计算相似度测量值。本页面上的示例进行了简化。大多数现实世界的数据集都非常庞大且复杂。如前所述，对于处理数值数据，四分位数是一个不错的默认选择。

随着数据复杂性的增加，手动创建相似度衡量标准的难度也会增加。在这种情况下，请改用监督式相似度衡量方法，其中监督式机器学习模型会计算相似度。我们稍后会对此进行详细讨论。

手动相似度衡量 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。