分群工作流程

如要建立資料叢集,請按照下列步驟操作:

  1. 準備資料。
  2. 建立相似度指標。
  3. 執行分群演算法。
  4. 解讀結果並調整分群法。

本頁會簡要說明相關步驟。我們後續會深入介紹 專區。

準備資料

與任何機器學習問題一樣,您必須將特徵資料正規化、調度資源,或是轉換資料 才能根據該資料訓練或微調模型此外, 因此請確認準備資料能準確計算 兩個例子之間的相似度

建立相似度指標

叢集演算法必須先瞭解 是一組範例您可以量化樣本之間的相似度 建立相似度指標,但需要充分瞭解 資料。

執行分群演算法

分群演算法會使用相似度指標與叢集資料。 本課程使用 k-means。

解讀結果並調整

因為分群法不會產生或包含基準「真相」與您互稱 以便驗證輸出內容 以及叢集層級和範例層級的預期狀況如果結果 看起來有點奇怪或品質不佳,請使用前三個步驟來實驗。繼續 反覆改進,直到輸出品質符合您的需求。