如要將資料分群,請按照下列步驟操作:
- 準備資料。
- 建立相似度指標。
- 執行分群演算法。
- 解讀結果並調整叢集。
本頁面會簡要介紹這些步驟。我們會在後續章節中深入探討。
準備資料
如同任何機器學習問題,您必須先將特徵資料正規化、縮放及轉換,才能針對該資料訓練或微調模型。此外,在建立區塊之前,請確認準備好的資料可讓您準確計算範例之間的相似度。
建立相似度指標
分群演算法必須先知道兩個範例的相似程度,才能將資料分組。您可以建立相似度指標來量化範例之間的相似度,但這需要仔細瞭解資料。
執行分群演算法
分群演算法會使用相似度指標來分群資料。本課程使用 k-means。
解讀結果並調整
由於叢集不會產生或包含可用於驗證輸出的「真實」資料,因此請務必在叢集層級和示例層級,檢查結果是否符合您的預期。如果結果看起來很奇怪或品質不佳,請嘗試前面三個步驟。持續進行疊代,直到輸出品質符合您的需求為止。