假設您使用的資料集含有來自特定領域的病患資訊 以及醫療照護系統資料集相當複雜,包括類別型和 數值特徵您想在資料集中尋找模式和相似之處。 您會如何完成這項工作?
叢集是非監督式 可將機器學習技術分類 未加上標籤的範例 進行分類(如果樣本標有標籤, 稱為 分類)。 思考一個假設的患者 研究旨在評估新的療法。研究期間 回報他們每週出現幾次症狀,以及 症狀研究人員可以利用分群法分析,將具有類似特質的患者分組 處理分群的回應圖 1 展示了一種可能的分組方式 將模擬資料分成三個叢集
查看圖 1 左側的無標籤資料,可能以為 資料形成三個集群,即使沒有正式的相似度定義 之間的平衡點不過在實際應用程式中,您需要明確指定 在以下位置定義相似度量測量 (也就是用來比較樣本的指標) 分析資料集的特徵如果範例只包含幾項特徵 視覺化呈現及測量相似度非常簡單但隨著 功能不斷增加,結合與比較功能變得更加直覺 也更複雜不同的相似度評估可能比較適用 這堂課程會說明如何在 適當的相似度評估方式: 手動相似度措施 和 來自嵌入的相似度測量。
建立叢集後,每個群組都會獲得一個稱為「叢集 ID」的專屬標籤。 聚集非常強大的功能,能簡化大型且複雜的資料集, 將多項功能套用至單一叢集 ID
分群法用途
叢集在許多產業中都相當實用。一些常見的應用方式 分群法:
- 市場區隔
- 社群網路分析
- 搜尋結果分組
- 醫學影像
- 圖片區隔
- 異常偵測
以下是建立叢集的一些具體範例:
- Hertzsprung-Russell 圖表 顯示依照亮度和溫度繪製的星星群。
- 顯示先前未知基因相似度和 不同物種之間的相似度導致分類改造成分類 模擬出的片段
- Big 5 個人化特徵模型是透過分群字詞 可將人格分為 5 組 十六進位 模型使用 6 個叢集,而不是 5 個叢集。
插補法
如果叢集中的部分範例缺少特徵資料,您就可以推斷 缺少叢集內其他範例的資料這種訓練方式稱為 。 例如,較不受歡迎的影片納入較熱門的影片 來改善推薦影片。
資料壓縮
如先前所述,相關叢集 ID 可取代以下項目的其他功能: 每個例子替換時能減少特徵數量 進而減少儲存、處理和訓練模型所需的資源 這些資料。對大型資料集來說,節省下來的成本相當可觀。
舉例來說,單一 YouTube 影片可能包含以下特徵資料:
- 觀眾所在位置、時間和客層
- 留言時間戳記、文字和使用者 ID
- 影片代碼
叢集 YouTube 影片可取代這組功能, 單一叢集 ID,因此會壓縮資料
隱私權保護
您可以藉由建立使用者群並建立使用者資料建立關聯,藉此保護隱私 而非使用者 ID舉個例子: 讓 YouTube 使用者訓練模型觀看記錄。不會傳送 User-ID 之後可以只傳遞叢集 ID 來建立叢集使用者這個 防止個別的使用者觀看個別觀看記錄。注意事項 叢集必須包含足夠大量的使用者,才能 保護隱私權。