データの準備

このセクションでは、クラスタリングに最も関連するデータの準備手順を確認します。 取得 数値データの操作 モジュールへようこそ。

クラスタリングでは、2 つのサンプル間の類似度を 数値に変換しますこのためには、 同じスケールを持つようにできます。これは、正規化や 分位数の作成などがありますもし、データ アナリストとして 分布を検査せずにデータを分割する代わりに、デフォルトで分位数を設定できます。

データの正規化

正規化することで、複数の特徴のデータを同じスケールに変換できます。 できます。

Z スコア

おおまかな形状のデータセットが ガウス分布Z スコアを計算する必要がある 指定します。Z スコアは、値が ありません。また、データセットのサイズが十分でないときには Z スコアを 分位数です。

詳しくは、 Z スコアのスケーリング 手順を確認してください。

これは、変更前と変更後のデータセットの 2 つの特徴を可視化したものです。 Z スコアのスケーリング:

<ph type="x-smartling-placeholder">
</ph> 正規化の前後で特徴データを比較する 2 つのグラフ
図 1: 正規化前と正規化後の特徴データの比較

左側の非正規化データセットである [特徴 1] と [特徴 2] では、 同じスケールではありません 左の赤色の例は 黄色よりも青色に近いか類似します。右側は Z スコア スケーリング。特徴 1 と特徴 2 は同じ尺度で、赤色は 近い値になります。正規化されたデータセットは、 点間の類似性をより正確に測定できます

ログ変換

データセットが特定のモデルに完全に適合し、 べき法則分布。ここで、データは 最も低い値に集中している場合は、log 変換を使用します。詳しくは、 ログのスケーリング 手順を確認してください。

ログ変換の前と後のべき乗法データセットを可視化した例を次に示します。

<ph type="x-smartling-placeholder">
</ph> データの大部分がローエンドにある棒グラフ
図 2: べき乗法の分布
<ph type="x-smartling-placeholder">
</ph> 正規(ガウス)分布を示すグラフ
図 3: 図 2 のログ変換。

ログ スケーリング前(図 2)では、赤色の例の方が黄色に近く見えます。 ログ スケーリング(図 3)の後、赤はより青に近くなります。

分位

データを分位に分割することは、データセットが準拠していない場合に効果的です。 既知の分布に振り分けますこのデータセットの例を考えてみます。

<ph type="x-smartling-placeholder">
</ph> 前処理前のデータ分布を示すグラフ
図 4: 前処理前の分類不能な分布。

直感的には、2 つの例が中間に少なければ、2 つの例はより類似している 特徴値に関係なく、サンプルが多数あると類似性が低くなります。 判断できます上記の可視化では、総所有コストの総計が 赤と黄色の間、または赤と青の間に位置する例の数。

このように、類似性を理解するには、データセットを分割し、 分位、つまりそれぞれが等しい数のサンプルを含む区間と、 分位インデックスを各サンプルに割り当てます。詳しくは、 分位点バケット化 手順を確認してください。

これは、分位数に分割された前の分布です。赤は 黄色から 1 分位数、青色から 3 分位数です。

<ph type="x-smartling-placeholder">
</ph> コンバージョン後のデータを示すグラフ
  分位数に変換されます。この線は 20 回の区間を表しています。]
図 5: 図 4 の分布を 20 分位数に変換した後

任意の数の \(n\) 分位数を選択できます。しかし、分位が 意味を持つように表現するには、少なくとも 1 つの \(10n\) 例。データが不足している場合は、代わりに正規化してください。

理解度をチェックする

以下の質問では、分位を作成するのに十分なデータがあることを前提としています。

質問 1

3 つのデータ分布を示すプロット
上の図に示されているデータ分散は、どのように処理すればよいでしょうか。 どうすればよいでしょうか。
分位を作成する。
正解です。分布が一致しないために 使用する場合は、デフォルトで 分位の作成に使用されます。
正規化。
通常、次の場合はデータを正規化します。 <ph type="x-smartling-placeholder">
    </ph>
  • データの分布はガウス分布です。
  • データが実際の環境において何を表しているかについて、 データの非線形変換が推奨されません
で確認できます。 いずれの場合も、この場合も該当しません。データの分布はガウス型ではありません。 対称ではありません。どの値が何の値になるかは 表しています
ログ変換。
これは完全なべき乗法の分布ではないため、ログは使用しないでください。 説明します。

問題 2

3 つのデータ分布を示すプロット
このデータ分散をどのように処理しますか。
正規化。
正解です。これはガウス分布です。
分位を作成する。
不正解です。これはガウス分布なので、 正規化です。
ログ変換。
不正解です。ログ変換はべき乗則分布にのみ適用する。

データの欠落

データセットに特定の特徴の欠損値があるサンプルがあり、 このような例はめったに発生しません。このような例は削除できます。これらの例が 機能を完全に削除するか ML を使って他の例から欠損値を予測することも 学習しますたとえば 欠損数値データを代入する 使用して 既存の特徴データでトレーニングされた回帰モデル