図に示すように、K 平均法は最も近いセントロイドにポイントを割り当てます。では、 「最も近い」どういう意味?
特徴データに K 平均法を適用するには、 すべての特徴データを単一の数値に結合する 手動の類似度測定と呼ばれます。
靴のデータセットを考えてみましょう。靴の大きさだけの特徴なら 2 つの靴の類似性を 示しています。サイズ間の数値の差が小さいほど、 識別します
靴のデータセットにサイズと価格という 2 つの数値特徴があれば、 類似性を表す 1 つの数値に変換します。まずデータをスケーリングして どちらの機能も同等です
- サイズ(s): 靴のサイズはガウス分布になっていると考えられます。確認します。 次に、データを正規化します。
- 価格(p): データはポアソン分布であると考えられます。確認します。もし 十分なデータがある場合は、データを分位に変換し、 \([0,1]\)にスケーリングします。
次に、2 つの特徴を結合するために、 二乗平均平方根誤差(RMSE)。 この大まかな類似性の尺度は、 \(\sqrt{\frac{(s_i - s_j)^2+(p_i - p_j)^2}{2}}\)。
簡単な例を挙げて、米国のサイズの 2 つの靴の類似度を計算します。 価格は 120 と 150 ですデータが不足しているため、 正規化も使用もせずにデータをスケーリングします。 分位数です。
アクション | メソッド |
---|---|
サイズを拡大する。 | 靴のサイズは 20 以下と仮定します。8 と 11 を割る サイズの上限を 20 に設定し 0.4 と 0.55 を設定します |
価格を調整します。 | 120 と 150 を最高価格 150 で割ると、0.8 と 1 になります。 |
サイズの違いを見つけます。 | \(0.55 - 0.4 = 0.15\) |
価格の差を求めます。 | \(1 - 0.8 = 0.2\) |
RMSE を計算します。 | \(\sqrt{\frac{0.2^2+0.15^2}{2}} = 0.17\) |
直感的には、特徴データが多いほど類似度が高くなる よく似ています。その代わり、類似度(RMSE)は減少します。最適な 直感に従って 1 から減算します。
\[\text{Similarity} = 1 - 0.17 = 0.83\]
一般に、数値データは次の手順に従って準備できます。 データを準備して、 ユークリッド距離を使って予測します
そのデータセットに靴のサイズと色の両方が含まれているとしたらどうでしょうか。色: カテゴリデータ ML 集中講座ですでに説明したように、 カテゴリデータを操作する。 カテゴリデータを数値サイズのデータと組み合わせることは困難です。Mobility Print を実行できるシステムは次のとおりです。
- 自動車の色(「白」または「青」)など、単一値(1 値)。ただし、指定できない 両方)
- 映画のジャンルなど、複数の値を持つ(多値)。 "アクション"コメディを「アクション」のみ)
2 つの青い靴の場合など、1 つのデータが一致しない場合、 例間の類似度は 1 です。それ以外の場合、類似度は 0 です。
映画ジャンルのような多要素データは扱いが困難です。もし 映画ジャンルの一定のセットのため、類似度は と呼ばれる一般的な Jaccard の類似性。例 ジャッカード類似度の計算:
- [“コメディ”","アクション”] と [“コメディ””]] = 1
- [“コメディ””、アクション”] と [“アクション”] = 1⁄2
- [“コメディ””, アクション”] と [“アクション”, "ドラマ"] = 1⁄3
- [“コメディ””, アクション”] および [“ノンフィクション””, 伝記”] = 0
ジャッカード類似度は、画像とテキストの間の 作成します。その他の 2 つの例:
- 郵便番号は、 ユークリッド距離を計算します。
- 色は RGB 数値に変換できますが、 ユークリッド距離に変換されます。
カテゴリデータの操作をご覧ください。 をご覧ください。
一般に、手動の類似度測定は、 実際に類似しています。選択した指標がそうでない場合、 指定します。
類似度の測定値を計算する前に、データを慎重に前処理してください。「 このページの例は簡略化されています。現実のデータセットのほとんどは大規模である 複雑です。前述のように、分位数はデフォルトの 数値データを処理できます
データの複雑さが増すと、手作業を作成するのが難しくなる 類似性測定値ですそのような場合は、 教師あり類似度尺度は、 類似度を計算します。これについては後ほど詳しく説明します 後で説明します