評估結果

分群法未受監督 真值可供驗證 也就是預測結果如果缺少可靠分析,品質評估的難度會變得很困難。此外 現實生活中的資料集通常未提供顯而易見的範例叢集, 如圖 1 所示。

顯示三個清楚的資料點群組的圖表
圖 1:理想的資料圖表。現實生活中的資料很少會像這樣。

實際資料往往看起來與圖 2 類似, 視覺化評估分群法的品質

含有隨機資料點的圖表
圖 2:更真實的資料圖

不過,有些經驗法則和最佳做法可協助你反覆套用 以提升叢集處理品質下方流程圖提供了 概略說明如何評估分群法結果這堂 採用

驗證程序的流程圖
按這裡即可查看放大版圖表。

步驟 1:評估分群法的品質

首先,請檢查叢集是否如預期般呈現, 我們會考慮執行類似的演算法,也就是在同一個叢集中。

接著,查看下列常用的指標 (僅列舉部分項目):

  • 集群基數
  • 叢集規模
  • 下游效能

集群基數

叢集基數是每個叢集的樣本數量。繪製 所有叢集的叢集基數,並調查 請務必為主要的離群值在圖 2 中,這會是叢集 5。

顯示基數的長條圖
機器系列叢集 5 比其他叢集小。
圖 2:多個叢集的基數。

叢集規模

叢集規模是叢集中所有範例的距離總和 與叢集的群集中心互動為所有叢集繪製叢集規模 並調查離群值在圖 3 中,叢集 0 是離群值。

另外也可以考慮範例的距離上限或平均距離 依叢集分類,找出離群值

這張長條圖顯示
          不同叢集內的 Pod叢集 0 比其他叢集大得多。
圖 3:多個叢集的規模。

規模與基數

您可能已註意到,集數較高的集數 相當直覺易懂,因為 叢集 (基數) 兩者的距離總和越大 點的質心 (規模)。您也可以找出異常叢集 設法找出基數與規模之間的關係 與其他叢集大不相同在圖 4 中,將線條對應至 基數和規模的圖表明叢集 0 有異常狀況。 (叢集 5 也距離此行很遠,但如果省略叢集 0,則新的 對齊的線條會更接近叢集 5)。

顯示散佈圖
          以便瞭解多個叢集的基數與規模一
          代表圖中的叢集狀態異常
圖 4:先前顯示的集群的基數與規模。

下游效能

由於分群輸出內容通常用於下游機器學習系統,因此請確認 分群程序變更時,下游模型效能即可有所提升。 這可讓您實際評估分群結果的品質 但進行這類測試可能相當複雜且費用高昂

步驟 2:重新評估相似度度量

分群演算法的效果和相似度量測差不多。請確認 相似度測量結果會傳回合理的結果快速檢查是 找出已知差異 (或更低) 的幾對樣本。計算 每一對範例的相似度衡量, 自己的知識:一組相似的範例應有較高的相似度 應盡量採取不同做法

你用來抽查相似度測量結果的範例應為 代表資料集,因此您可以確定自己的相似度 您得評估所有範例的訴訟保留。 相似度量單位 (手動或監督) 在 如果部分範例的相似度測量值不一致, 範例不會分群並包含類似的範例。

如果發現相似度分數有誤的樣本,代表你的相似度 因此無法完全擷取到 範例。嘗試不同的相似度測量值,直到能傳回更多值 準確且一致的結果

步驟 3:找出最適合的叢集數量

k-means 會要求您預先決定叢集數量 \(k\) 。如何 你判斷出最佳 \(k\)嗎?請使用以下指令執行演算法: 增加 \(k\) 的值,並記下所有集群規模的總和。阿斯 \(k\) 增加、叢集變小,且總分之間的距離 減少光心我們可以把這個總距離視為損失。 請對照集群數量繪製這個距離。

如圖 5 所示,在特定 \(k\)上方,損失減少會變為 且 \(k\)。建議使用 \(k\) 此時斜率先出現劇烈變化 肘部法。對於 圖表顯示,最佳 \(k\) 大小約為 11。如果你想更精細地 可以選擇更高的 \(k\),如本圖所示。

顯示損失圖表
以及使用叢集損失會隨著叢集數量增加而減少
其等級為大約 10 個叢集
圖 5:損失與集群數量的比較

疑難排解問題

如果您在評估過程中發現問題,請重新評估資料 準備步驟和選擇的相似度量測值提問:

  • 資料規模是否適當?
  • 您的相似度測量結果正確嗎?
  • 演算法是否對資料執行語意有意義的作業?
  • 演算法的假設是否與資料相符?