クラスタリングとは

病院の患者情報を含むデータセットを扱っているとします。 医療機関です。このデータセットは複雑で、カテゴリと 数値特徴ですデータセット内のパターンと類似点を見つけるには、 このタスクにどのようにアプローチしますか。

クラスタリングは教師なし グループ化するよう設計された ラベルなしのサンプル 予測します。(例にラベルが付いている場合は、 この種のグループ化は 分類をご覧ください)。 架空の患者を考える 新しい治療プロトコルを評価するために設計されたものです。治験中、患者は 週に何回症状が出たのか、 改善されます。研究者はクラスタリング分析を使用して、類似の疾患のある患者をグループ化できます。 結果をクラスタに分けます図 1 は、考えられるグループ化の一例を示しています。 3 つのクラスタに分割します

<ph type="x-smartling-placeholder">
</ph> 左側は、症状の重大度と症状の数のグラフ
   3 つのクラスタを示すデータポイントが表示されています。
   右側は、同じグラフですが、3 つのクラスタのそれぞれに色が付けられています。
図 1: 3 つのクラスタにグループ化されたラベルなしのサンプル (シミュレーション データ)

図 1 の左側のラベルなしデータを見ると、次のことが推測できます。 類似性の正式な定義がなくても、データは 3 つのクラスタを形成する 予測されます。ただし、実際のアプリケーションでは、明示的に 類似度測定値、つまりサンプルの比較に使用する指標を 特徴のキーワードを指定します。例に特徴が 2 ~ 3 個しかない場合は 類似性の可視化と測定は簡単です。しかし、アラートの数は、 特徴量が増えると、特徴量の組み合わせや比較が直感的ではなくなる 複雑化する一方です異なる類似度尺度は、程度の差はあっても適切なものである場合がある 説明します。このコースでは 適切な類似度尺度は、以降のセクションで説明します。 手動による類似性測定 および エンベディングからの類似度測定

クラスタリング後、各グループにクラスタ ID と呼ばれる一意のラベルが割り当てられます。 クラスタリングは、大規模で複雑なデータセットを 1 つのクラスタ ID にまとめることができます。

クラスタリングのユースケース

クラスタリングはさまざまな業界で役立ちます。一般的な用途 次のとおりです。

  • 市場セグメンテーション
  • ソーシャル ネットワーク分析
  • 検索結果のグループ化
  • 医用画像
  • 画像セグメンテーション
  • 異常検出

クラスタリングの具体例をいくつか紹介します。

  • Hertzsprung-Russell 図 は、輝度と温度でプロットした星のクラスタを示します。
  • これまで知られていなかった遺伝子の類似性や類似性を示す遺伝子配列決定 種間の相違性が分類の見直しにつながった 予測します。
  • Big 5 人格的特徴のモデルは、次の単語をクラスタリングすることで開発されました。 性格を 5 つのグループに分けます。「 ヘキサコ 5 つではなく 6 つのクラスタを使用します。

補完

クラスタ内の一部のサンプルで特徴データが欠落している場合、 欠損値を検出することもできます。これを 補完。 たとえば、人気の低い動画を人気の動画とクラスタ化できます。 動画のおすすめ機能の精度が向上します。

データ圧縮

すでに説明したように、関連するクラスタ ID は、すべての 表示されます。このように置換することで、特徴量の数を減らし、 そのため、モデルのトレーニング、保存、処理、トレーニングに必要なリソースも 判断できます非常に大規模なデータセットの場合、この費用削減は相当なものになります。

たとえば、1 つの YouTube 動画に次のような特徴データを含めることができます。

  • 視聴者の地域、時間、ユーザー属性
  • コメントのタイムスタンプ、テキスト、ユーザー ID
  • 動画のタグ

YouTube 動画をクラスタリングすると、この機能セットの代わりに、 単一のクラスタ ID を使用し、データを圧縮します。

プライバシー保護

ユーザーをクラスタ化し、ユーザーデータを関連付けることで、ある程度のプライバシーを保護できる ユーザー ID ではなくクラスタ ID を使用します。一例として、最初の画像に YouTube ユーザーのデータを基にモデルをトレーニングし、再生履歴代わりにユーザー ID を渡して ユーザーをクラスタ化してクラスタ ID のみを渡すことができます。この 個々の再生履歴が個々のユーザーに関連付けられないようにします。備考 十分な数のユーザーをクラスタに含めることが プライバシーを保護する。