このページは Cloud Translation API によって翻訳されました。

手動による類似度測定

図に示すように、K 平均法は最も近いセントロイドにポイントを割り当てます。では、「最も近い」どういう意味？

特徴データに K 平均法を適用するには、すべての特徴データを単一の数値に結合する手動の類似度測定と呼ばれます。

靴のデータセットを考えてみましょう。靴の大きさだけの特徴なら 2 つの靴の類似性を示しています。サイズ間の数値の差が小さいほど、識別します

靴のデータセットにサイズと価格という 2 つの数値特徴があれば、類似性を表す 1 つの数値に変換します。まずデータをスケーリングしてどちらの機能も同等です

サイズ（s）: 靴のサイズはガウス分布になっていると考えられます。確認します。次に、データを正規化します。
価格（p）: データはポアソン分布であると考えられます。確認します。もし十分なデータがある場合は、データを分位に変換し、 \([0,1]\)にスケーリングします。

次に、2 つの特徴を結合するために、二乗平均平方根誤差（RMSE）。この大まかな類似性の尺度は、 \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)。

簡単な例を挙げて、米国のサイズの 2 つの靴の類似度を計算します。価格は 120 と 150 ですデータが不足しているため、正規化も使用もせずにデータをスケーリングします。分位数です。

アクション	メソッド
サイズを拡大する。	靴のサイズは 20 以下と仮定します。8 と 11 を割るサイズの上限を 20 に設定し 0.4 と 0.55 を設定します
価格を調整します。	120 と 150 を最高価格 150 で割ると、0.8 と 1 になります。
サイズの違いを見つけます。	\(0.55 - 0.4 = 0.15\)
価格の差を求めます。	\(1 - 0.8 = 0.2\)
RMSE を計算します。	\(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\)

直感的には、特徴データが多いほど類似度が高くなるよく似ています。その代わり、類似度（RMSE）は減少します。最適な直感に従って 1 から減算します。

\[\text{Similarity} = 1 - 0.17 = 0.83\]

一般に、数値データは次の手順に従って準備できます。データを準備して、ユークリッド距離を使って予測します

そのデータセットに靴のサイズと色の両方が含まれているとしたらどうでしょうか。色: カテゴリデータ ML 集中講座ですでに説明したように、カテゴリデータを操作する。カテゴリデータを数値サイズのデータと組み合わせることは困難です。Mobility Print を実行できるシステムは次のとおりです。

2 つの青い靴の場合など、1 つのデータが一致しない場合、例間の類似度は 1 です。それ以外の場合、類似度は 0 です。

映画ジャンルのような多要素データは扱いが困難です。もし映画ジャンルの一定のセットのため、類似度はと呼ばれる一般的な Jaccard の類似性。例ジャッカード類似度の計算:

ジャッカード類似度は、画像とテキストの間の作成します。その他の 2 つの例:

カテゴリデータの操作をご覧ください。をご覧ください。

一般に、手動の類似度測定は、実際に類似しています。選択した指標がそうでない場合、指定します。

類似度の測定値を計算する前に、データを慎重に前処理してください。「このページの例は簡略化されています。現実のデータセットのほとんどは大規模である複雑です。前述のように、分位数はデフォルトの数値データを処理できます

データの複雑さが増すと、手作業を作成するのが難しくなる類似性測定値ですそのような場合は、 教師あり類似度尺度は、類似度を計算します。これについては後ほど詳しく説明します後で説明します