分群工作流程

如要叢集資料,請按照下列步驟操作:

  1. 準備資料。
  2. 建立相似度指標。
  3. 執行分群法。
  4. 解讀結果及調整您的叢集。

本頁將簡單介紹這些步驟。我們會在後續的章節中進一步說明。

分群工作流程的四個步驟

準備資料

與任何機器學習問題一樣,您必須正對特徵資料進行正規化、縮放及轉換。不過在分群時,您必須額外確保準備的資料能準確計算範例之間的相似性。下節將討論此因素。

建立相似度指標

分群演算法必須將資料組合成類似的例子,才能將叢集分組。您可以建立相似度指標,將範例之間的相似性量化。建立相似度指標時,您必須仔細瞭解資料,以及如何從特徵中產生相似性。

執行分群演算法

叢集演算法會使用相似指標進行叢集資料。本課程以 k-means 為主,

解讀結果及調整

檢查分群輸出的品質是疊代性和探索性,因為叢集缺少驗證輸出內容的「真相」。您須確認在叢集層級和範例層級,確認是否符合預期。改善結果時,您必須反覆進行上述步驟,看看對叢集有何影響。