このページは Cloud Translation API によって翻訳されました。

結果の評価

クラスタリングは教師なしであるため、グラウンドトゥルースを使用できる表示されます。信頼できる情報がないと、品質の評価が複雑になります。さらに、通常、実際のデータセットでは、示しています。

データポイントの明確な 3 つのグループを示すグラフ — **図 1: 理想的なデータプロット。現実のデータがこのようなものであることはめったにありません。**

それどころか、実際のデータは図 2 のように見える場合が多く、クラスタリング品質を視覚的に評価できます。

ランダムなデータポイントを含むグラフ — **図 2: より現実的なデータプロット**

繰り返し適用できるヒューリスティックとベストプラクティスもあります。クラスタ化の品質を向上させます次のフローチャートはクラスタリング結果を評価する方法の概要を説明します。それぞれのモジュールを示します。

確認プロセスのフローチャート図 — **こちらをクリックすると、このグラフの拡大版が表示されます。**

ステップ 1: クラスタリングの品質を評価する

まず、クラスタが想定どおりに表示され、その例が同じクラスタ内に出現します。

次に、よく使用される以下の指標を確認します（すべてを網羅しているわけではありません）。

クラスタのカーディナリティ
クラスタの大きさ
下流でのパフォーマンス

クラスタのカーディナリティ

クラスタのカーディナリティは、クラスタごとの例の数です。プロットすべてのクラスタのカーディナリティを確認し、大きく外れています。図 2 では、クラスタ 5 になります。

カーディナリティを示す棒グラフ
構成します。クラスタ 5 は他のクラスタよりも小さくなります。 — **図 2: 複数のクラスタのカーディナリティ**

クラスタの大きさ

[クラスタの大きさ] は、クラスタ内のすべてのサンプルからの距離の合計です。クラスタのセントロイドに移動しますすべてのクラスタのクラスタの大きさをプロットし、外れ値を調査します。図 3 では、クラスタ 0 が外れ値です。

また、サンプルの最大距離または平均距離にも着目することを検討します。外れ値を見つけることもできます。

人口のマグニチュードを示す棒グラフ
必要があります。クラスタ 0 は他のクラスタよりもはるかに大きくなっています。 — </ph> **図 3: 複数のクラスタの強度。**

大きさとカーディナリティ

お気づきかもしれませんが、クラスタのカーディナリティが高いほど、線形回帰は直感的に理解できます。というのも、それらの距離の和の確率が高いほど、中心点（強度）から点数を計算します。異常なクラスタを特定したり基数と大きさの関係が他のクラスタとは大きく異なります。図 4 では、カーディナリティと大きさのプロットから、クラスタ 0 が異常であることがわかります。（クラスタ 5 も線から遠く離れていますが、クラスタ 0 を省略すると、クラスタ 5 にかなり近い線が表示されます）。

以下を示す散布図。
複数のクラスタのカーディナリティとマグニチュードを比較できます。1 本
外れ値になります。 — </ph> **図 4: 前に示したクラスタのカーディナリティと大きさ。**

下流でのパフォーマンス

クラスタリング出力はダウンストリームの ML システムでよく使用されるため、クラスタリングプロセスが変更されると、ダウンストリームモデルのパフォーマンスが向上します。これにより、クラスタリング結果の品質を実際に評価できます。ただし、この種のテストの実施は複雑で費用がかかる可能性があります。

ステップ 2: 類似性尺度を再評価する

クラスタリングアルゴリズムの性能は、類似性の尺度で決まります。確認事項良い結果が得られます簡単なチェックは程度の差があることがわかっている例のペアを特定します。計算するサンプルのペアごとに類似度を測定し、あなたの知識: 類似した例のペアの方が類似性が高い異なるサンプルのペアよりも特徴量を測定します。

類似度のスポットチェックに使用する例は、その類似度がデータセットを表す保持できます。P-MAX キャンペーンのパフォーマンスは類似度尺度は、手動か教師ありかにかかわらず、見てみましょう。類似度の測定値に一貫性がない場合、類似の例でクラスタ化されることはありません。

類似度スコアが不正確な例が見つかった場合、その類似度はこれらを区別する特徴データを完全には捕捉できない可能性があります説明します。類似度をいろいろ試して、結果が出るまでテストする正確で一貫性のある結果を導き出すことです。

ステップ 3: 最適なクラスタ数を見つける

K 平均法では、クラスタの数を事前に決めておく必要があります。 \(k\) 方法最適な \(k\)を判断できますか？次を使用してアルゴリズムを実行してみましょう。 \(k\) の値が増加し、すべてのクラスタの大きさの合計に注意してください。として \(k\) が増加してクラスタが小さくなり、ポイントの総距離が増加します重心が減少しますこの合計距離は損失として扱うことができます。この距離をクラスタ数に対してプロットします。

図 5 に示すように、一定の \(k\)を超えると、損失の削減量は次のようになります。増加するにつれて減少します \(k\)。 \(k\)の使用を検討してください。傾きが最初に大きく変化します。これはエルボーメソッド対象: プロットの場合、最適な \(k\) は約 11 です。よりきめ細かい制御が必要な場合は、このプロットを参照して、より高い \(k\)を選択できます。

損失を示すグラフ
使用したクラスタとの比較に基づきます。次の時点までクラスタ数が増えると損失が減少
平均で約 10 個のクラスタが — </ph> **図 5: 損失とクラスタ数**

トラブルシューティングに関する質問

評価の過程で問題が見つかった場合は、データを再評価する選択した類似性尺度を示します。質問:

データは適切にスケーリングされていますか？
類似度の測定値は正確ですか？
アルゴリズムがデータに対して意味的に意味のあるオペレーションを実行しているか。
アルゴリズムの仮定はデータと一致していますか？

手動による類似度測定

メリットとデメリット