分群法未受監督 真值可供驗證 也就是預測結果如果缺少可靠分析,品質評估的難度會變得很困難。此外 現實生活中的資料集通常未提供顯而易見的範例叢集, 如圖 1 所示。
實際資料往往看起來與圖 2 類似, 視覺化評估分群法的品質
不過,有些經驗法則和最佳做法可協助你反覆套用 以提升叢集處理品質下方流程圖提供了 概略說明如何評估分群法結果這堂 採用
步驟 1:評估分群法的品質
首先,請檢查叢集是否如預期般呈現, 我們會考慮執行類似的演算法,也就是在同一個叢集中。
接著,查看下列常用的指標 (僅列舉部分項目):
- 集群基數
- 叢集規模
- 下游效能
集群基數
叢集基數是每個叢集的樣本數量。繪製 所有叢集的叢集基數,並調查 請務必為主要的離群值在圖 2 中,這會是叢集 5。
叢集規模
叢集規模是叢集中所有範例的距離總和 與叢集的群集中心互動為所有叢集繪製叢集規模 並調查離群值在圖 3 中,叢集 0 是離群值。
另外也可以考慮範例的距離上限或平均距離 依叢集分類,找出離群值
規模與基數
您可能已註意到,集數較高的集數 相當直覺易懂,因為 叢集 (基數) 兩者的距離總和越大 點的質心 (規模)。您也可以找出異常叢集 設法找出基數與規模之間的關係 與其他叢集大不相同在圖 4 中,將線條對應至 基數和規模的圖表明叢集 0 有異常狀況。 (叢集 5 也距離此行很遠,但如果省略叢集 0,則新的 對齊的線條會更接近叢集 5)。
下游效能
由於分群輸出內容通常用於下游機器學習系統,因此請確認 分群程序變更時,下游模型效能即可有所提升。 這可讓您實際評估分群結果的品質 但進行這類測試可能相當複雜且費用高昂
步驟 2:重新評估相似度度量
分群演算法的效果和相似度量測差不多。請確認 相似度測量結果會傳回合理的結果快速檢查是 找出已知差異 (或更低) 的幾對樣本。計算 每一對範例的相似度衡量, 自己的知識:一組相似的範例應有較高的相似度 應盡量採取不同做法
你用來抽查相似度測量結果的範例應為 代表資料集,因此您可以確定自己的相似度 您得評估所有範例的訴訟保留。 相似度量單位 (手動或監督) 在 如果部分範例的相似度測量值不一致, 範例不會分群並包含類似的範例。
如果發現相似度分數有誤的樣本,代表你的相似度 因此無法完全擷取到 範例。嘗試不同的相似度測量值,直到能傳回更多值 準確且一致的結果
步驟 3:找出最適合的叢集數量
k-means 會要求您預先決定叢集數量 \(k\) 。如何 你判斷出最佳 \(k\)嗎?請使用以下指令執行演算法: 增加 \(k\) 的值,並記下所有集群規模的總和。阿斯 \(k\) 增加、叢集變小,且總分之間的距離 減少光心我們可以把這個總距離視為損失。 請對照集群數量繪製這個距離。
如圖 5 所示,在特定 \(k\)上方,損失減少會變為 且 \(k\)。建議使用 \(k\) 此時斜率先出現劇烈變化 肘部法。對於 圖表顯示,最佳 \(k\) 大小約為 11。如果你想更精細地 可以選擇更高的 \(k\),如本圖所示。
疑難排解問題
如果您在評估過程中發現問題,請重新評估資料 準備步驟和選擇的相似度量測值提問:
- 資料規模是否適當?
- 您的相似度測量結果正確嗎?
- 演算法是否對資料執行語意有意義的作業?
- 演算法的假設是否與資料相符?