如要建立資料叢集,請按照下列步驟操作:
- 準備資料。
- 建立相似度指標。
- 執行分群演算法。
- 解讀結果並調整分群法。
本頁會簡要說明相關步驟。我們後續會深入介紹 專區。
準備資料
與任何機器學習問題一樣,您必須將特徵資料正規化、調度資源,或是轉換資料 才能根據該資料訓練或微調模型此外, 因此請確認準備資料能準確計算 兩個例子之間的相似度
建立相似度指標
叢集演算法必須先瞭解 是一組範例您可以量化樣本之間的相似度 建立相似度指標,但需要充分瞭解 資料。
執行分群演算法
分群演算法會使用相似度指標與叢集資料。 本課程使用 k-means。
解讀結果並調整
因為分群法不會產生或包含基準「真相」與您互稱 以便驗證輸出內容 以及叢集層級和範例層級的預期狀況如果結果 看起來有點奇怪或品質不佳,請使用前三個步驟來實驗。繼續 反覆改進,直到輸出品質符合您的需求。