このセクションでは、クラスタリングに最も関連するデータの準備手順を確認します。 取得 数値データの操作 モジュールへようこそ。
クラスタリングでは、2 つのサンプル間の類似度を 数値に変換しますこのためには、 同じスケールを持つようにできます。これは、正規化や 分位数の作成などがありますもし、データ アナリストとして 分布を検査せずにデータを分割する代わりに、デフォルトで分位数を設定できます。
データの正規化
正規化することで、複数の特徴のデータを同じスケールに変換できます。 できます。
Z スコア
おおまかな形状のデータセットが ガウス分布、 Z スコアを計算する必要がある 指定します。Z スコアは、値が ありません。また、データセットのサイズが十分でないときには Z スコアを 分位数です。
詳しくは、 Z スコアのスケーリング 手順を確認してください。
これは、変更前と変更後のデータセットの 2 つの特徴を可視化したものです。 Z スコアのスケーリング:
<ph type="x-smartling-placeholder">左側の非正規化データセットである [特徴 1] と [特徴 2] では、 同じスケールではありません 左の赤色の例は 黄色よりも青色に近いか類似します。右側は Z スコア スケーリング。特徴 1 と特徴 2 は同じ尺度で、赤色は 近い値になります。正規化されたデータセットは、 点間の類似性をより正確に測定できます
ログ変換
データセットが特定のモデルに完全に適合し、 べき法則分布。ここで、データは 最も低い値に集中している場合は、log 変換を使用します。詳しくは、 ログのスケーリング 手順を確認してください。
ログ変換の前と後のべき乗法データセットを可視化した例を次に示します。
<ph type="x-smartling-placeholder"> <ph type="x-smartling-placeholder">ログ スケーリング前(図 2)では、赤色の例の方が黄色に近く見えます。 ログ スケーリング(図 3)の後、赤はより青に近くなります。
分位
データを分位に分割することは、データセットが準拠していない場合に効果的です。 既知の分布に振り分けますこのデータセットの例を考えてみます。
<ph type="x-smartling-placeholder">直感的には、2 つの例が中間に少なければ、2 つの例はより類似している 特徴値に関係なく、サンプルが多数あると類似性が低くなります。 判断できます上記の可視化では、総所有コストの総計が 赤と黄色の間、または赤と青の間に位置する例の数。
このように、類似性を理解するには、データセットを分割し、 分位、つまりそれぞれが等しい数のサンプルを含む区間と、 分位インデックスを各サンプルに割り当てます。詳しくは、 分位点バケット化 手順を確認してください。
これは、分位数に分割された前の分布です。赤は 黄色から 1 分位数、青色から 3 分位数です。
<ph type="x-smartling-placeholder">任意の数の \(n\) 分位数を選択できます。しかし、分位が 意味を持つように表現するには、少なくとも 1 つの \(10n\) 例。データが不足している場合は、代わりに正規化してください。
理解度をチェックする
以下の質問では、分位を作成するのに十分なデータがあることを前提としています。
質問 1
- </ph>
- データの分布はガウス分布です。
- データが実際の環境において何を表しているかについて、 データの非線形変換が推奨されません
問題 2
データの欠落
データセットに特定の特徴の欠損値があるサンプルがあり、 このような例はめったに発生しません。このような例は削除できます。これらの例が 機能を完全に削除するか ML を使って他の例から欠損値を予測することも 学習しますたとえば 欠損数値データを代入する 使用して 既存の特徴データでトレーニングされた回帰モデル