如要叢集資料,請按照下列步驟操作:
- 準備資料。
- 建立相似度指標。
- 執行分群法。
- 解讀結果及調整您的叢集。
本頁將簡單介紹這些步驟。我們會在後續的章節中進一步說明。
準備資料
與任何機器學習問題一樣,您必須正對特徵資料進行正規化、縮放及轉換。不過在分群時,您必須額外確保準備的資料能準確計算範例之間的相似性。下節將討論此因素。
建立相似度指標
分群演算法必須將資料組合成類似的例子,才能將叢集分組。您可以建立相似度指標,將範例之間的相似性量化。建立相似度指標時,您必須仔細瞭解資料,以及如何從特徵中產生相似性。
執行分群演算法
叢集演算法會使用相似指標進行叢集資料。本課程以 k-means 為主,
解讀結果及調整
檢查分群輸出的品質是疊代性和探索性,因為叢集缺少驗證輸出內容的「真相」。您須確認在叢集層級和範例層級,確認是否符合預期。改善結果時,您必須反覆進行上述步驟,看看對叢集有何影響。