什麼是分群法?

假設您使用的資料集含有來自特定領域的病患資訊 以及醫療照護系統資料集相當複雜,包括類別型和 數值特徵您想在資料集中尋找模式和相似之處。 您會如何完成這項工作?

叢集是非監督式 可將機器學習技術分類 未加上標籤的範例 進行分類(如果樣本標有標籤, 稱為 分類)。 思考一個假設的患者 研究旨在評估新的療法。研究期間 回報他們每週出現幾次症狀,以及 症狀研究人員可以利用分群法分析,將具有類似特質的患者分組 處理分群的回應圖 1 展示了一種可能的分組方式 將模擬資料分成三個叢集

左側是症狀嚴重性與症狀的比較圖表
   顯示可提供三個叢集的資料點
   右邊為相同的圖表,但三個叢集都有彩色。
圖 1:將未加上標籤的範例組成三個叢集 (模擬資料)。

查看圖 1 左側的無標籤資料,可能以為 資料形成三個集群,即使沒有正式的相似度定義 之間的平衡點不過在實際應用程式中,您需要明確指定 在以下位置定義相似度量測量 (也就是用來比較樣本的指標) 分析資料集的特徵如果範例只包含幾項特徵 視覺化呈現及測量相似度非常簡單但隨著 功能不斷增加,結合與比較功能變得更加直覺 也更複雜不同的相似度評估可能比較適用 這堂課程會說明如何在 適當的相似度評估方式: 手動相似度措施來自嵌入的相似度測量

建立叢集後,每個群組都會獲得一個稱為「叢集 ID」的專屬標籤。 聚集非常強大的功能,能簡化大型且複雜的資料集, 將多項功能套用至單一叢集 ID

分群法用途

叢集在許多產業中都相當實用。一些常見的應用方式 分群法:

  • 市場區隔
  • 社群網路分析
  • 搜尋結果分組
  • 醫學影像
  • 圖片區隔
  • 異常偵測

以下是建立叢集的一些具體範例:

  • Hertzsprung-Russell 圖表 顯示依照亮度和溫度繪製的星星群。
  • 顯示先前未知基因相似度和 不同物種之間的相似度導致分類改造成分類 模擬出的片段
  • Big 5 個人化特徵模型是透過分群字詞 可將人格分為 5 組 十六進位 模型使用 6 個叢集,而不是 5 個叢集。

插補法

如果叢集中的部分範例缺少特徵資料,您就可以推斷 缺少叢集內其他範例的資料這種訓練方式稱為 。 例如,較不受歡迎的影片納入較熱門的影片 來改善推薦影片。

資料壓縮

如先前所述,相關叢集 ID 可取代以下項目的其他功能: 每個例子替換時能減少特徵數量 進而減少儲存、處理和訓練模型所需的資源 這些資料。對大型資料集來說,節省下來的成本相當可觀。

舉例來說,單一 YouTube 影片可能包含以下特徵資料:

  • 觀眾所在位置、時間和客層
  • 留言時間戳記、文字和使用者 ID
  • 影片代碼

叢集 YouTube 影片可取代這組功能, 單一叢集 ID,因此會壓縮資料

隱私權保護

您可以藉由建立使用者群並建立使用者資料建立關聯,藉此保護隱私 而非使用者 ID舉個例子: 讓 YouTube 使用者訓練模型觀看記錄。不會傳送 User-ID 之後可以只傳遞叢集 ID 來建立叢集使用者這個 防止個別的使用者觀看個別觀看記錄。注意事項 叢集必須包含足夠大量的使用者,才能 保護隱私權。