本頁面由 Cloud Translation API 翻譯而成。

評估結果

分群法未受監督真值可供驗證也就是預測結果如果缺少可靠分析，品質評估的難度會變得很困難。此外現實生活中的資料集通常未提供顯而易見的範例叢集，如圖 1 所示。

顯示三個清楚的資料點群組的圖表 — **圖 1：理想的資料圖表。現實生活中的資料很少會像這樣。**

實際資料往往看起來與圖 2 類似，視覺化評估分群法的品質

不過，有些經驗法則和最佳做法可協助你反覆套用以提升叢集處理品質下方流程圖提供了概略說明如何評估分群法結果這堂採用

步驟 1：評估分群法的品質

首先，請檢查叢集是否如預期般呈現，我們會考慮執行類似的演算法，也就是在同一個叢集中。

接著，查看下列常用的指標 (僅列舉部分項目)：

集群基數
叢集規模
下游效能

集群基數

叢集基數是每個叢集的樣本數量。繪製所有叢集的叢集基數，並調查請務必為主要的離群值在圖 2 中，這會是叢集 5。

顯示基數的長條圖
機器系列叢集 5 比其他叢集小。 — **圖 2：多個叢集的基數。**

叢集規模

叢集規模是叢集中所有範例的距離總和與叢集的群集中心互動為所有叢集繪製叢集規模並調查離群值在圖 3 中，叢集 0 是離群值。

另外也可以考慮範例的距離上限或平均距離依叢集分類，找出離群值

這張長條圖顯示
不同叢集內的 Pod叢集 0 比其他叢集大得多。 — **圖 3：多個叢集的規模。**

規模與基數

您可能已註意到，集數較高的集數相當直覺易懂，因為叢集 (基數) 兩者的距離總和越大點的質心 (規模)。您也可以找出異常叢集設法找出基數與規模之間的關係與其他叢集大不相同在圖 4 中，將線條對應至基數和規模的圖表明叢集 0 有異常狀況。 (叢集 5 也距離此行很遠，但如果省略叢集 0，則新的對齊的線條會更接近叢集 5)。

顯示散佈圖
以便瞭解多個叢集的基數與規模一
代表圖中的叢集狀態異常 — **圖 4：先前顯示的集群的基數與規模。**

下游效能

由於分群輸出內容通常用於下游機器學習系統，因此請確認分群程序變更時，下游模型效能即可有所提升。這可讓您實際評估分群結果的品質但進行這類測試可能相當複雜且費用高昂

步驟 2：重新評估相似度度量

分群演算法的效果和相似度量測差不多。請確認相似度測量結果會傳回合理的結果快速檢查是找出已知差異 (或更低) 的幾對樣本。計算每一對範例的相似度衡量，自己的知識：一組相似的範例應有較高的相似度應盡量採取不同做法

你用來抽查相似度測量結果的範例應為代表資料集，因此您可以確定自己的相似度您得評估所有範例的訴訟保留。相似度量單位 (手動或監督) 在如果部分範例的相似度測量值不一致，範例不會分群並包含類似的範例。

如果發現相似度分數有誤的樣本，代表你的相似度因此無法完全擷取到範例。嘗試不同的相似度測量值，直到能傳回更多值準確且一致的結果

步驟 3：找出最適合的叢集數量

k-means 會要求您預先決定叢集數量 \(k\) 。如何你判斷出最佳 \(k\)嗎？請使用以下指令執行演算法：增加 \(k\) 的值，並記下所有集群規模的總和。阿斯 \(k\) 增加、叢集變小，且總分之間的距離減少光心我們可以把這個總距離視為損失。請對照集群數量繪製這個距離。

如圖 5 所示，在特定 \(k\)上方，損失減少會變為且 \(k\)。建議使用 \(k\) 此時斜率先出現劇烈變化肘部法。對於圖表顯示，最佳 \(k\) 大小約為 11。如果你想更精細地可以選擇更高的 \(k\)，如本圖所示。

顯示損失圖表
以及使用叢集損失會隨著叢集數量增加而減少
其等級為大約 10 個叢集 — **圖 5：損失與集群數量的比較**

疑難排解問題

如果您在評估過程中發現問題，請重新評估資料準備步驟和選擇的相似度量測值提問：

資料規模是否適當？
您的相似度測量結果正確嗎？
演算法是否對資料執行語意有意義的作業？
演算法的假設是否與資料相符？

手動相似度測量

優缺點