分群工作流程

如要將資料分群,請按照下列步驟操作:

  1. 準備資料。
  2. 建立相似度指標。
  3. 執行分群演算法。
  4. 解讀結果並調整叢集。

本頁面會簡要介紹這些步驟。我們會在後續章節中深入探討。

準備資料

如同任何機器學習問題,您必須先將特徵資料正規化、縮放及轉換,才能針對該資料訓練或微調模型。此外,在建立區塊之前,請確認準備好的資料可讓您準確計算範例之間的相似度。

建立相似度指標

分群演算法必須先知道兩個範例的相似程度,才能將資料分組。您可以建立相似度指標來量化範例之間的相似度,但這需要仔細瞭解資料。

執行分群演算法

分群演算法會使用相似度指標來分群資料。本課程使用 k-means。

解讀結果並調整

由於叢集不會產生或包含可用於驗證輸出的「真實」資料,因此請務必在叢集層級和示例層級,檢查結果是否符合您的預期。如果結果看起來很奇怪或品質不佳,請嘗試前面三個步驟。持續進行疊代,直到輸出品質符合您的需求為止。