機器學習詞彙表:分群法

本頁提供分群詞彙解釋。如要查看所有詞彙詞彙,請按這裡

A

匯總叢集

#clustering

請參閱階層式叢集

C

centroid

#clustering

叢集中心,由 k-meansk-median 演算法判定。舉例來說,如果 k 是 3,那麼 k-means 或 k-median 演算法就會找到 3 個質心。

以 centroid 為基礎的分群法

#clustering

一種「叢集」演算法,可將資料整理成非階層式叢集。k-means 是最常用的以 centroid 為基礎的叢集演算法。

階層式叢集演算法進行比較。

分群

#clustering

將相關範例分組,尤其是在非監督式學習期間。將所有範例分組後,一個人可以選擇是否要為每個叢集提供意義。

許多叢集演算法皆存在。例如,k-means 演算法會根據叢集與centroid的鄰近程度建立範例叢集,如下圖所示:

其中 x 軸已加上 '樹狀結構' Y 軸,該圖包含兩個 centroid 和數十個資料點。系統會按照儲存距離來分類資料點。也就是說,最接近一個質心的資料點被歸類為「##39;叢集 1'」,而最接近另一個質心的資料點則會歸類為「##99;cluster 2'」。

這樣的研究人員就能審查叢集,例如將叢集 1 標示為「矮樹」;叢集 2 則視為「完整大小樹狀結構」。

另一個例子是,根據叢集位置與中心點距離的叢集演算法,如下所示:

數十個資料點排列在同心圓上,幾乎與飛鏢靶的中心圍繞。資料點最內層的分類為「#39;叢集 1'」;中間部分則為「#39;叢集 2'」,最外圈為「#39;cluster 3.'」

D

多元分群法

#clustering

請參閱階層式叢集

H

階層分群法

#clustering

用來建立叢集的叢集演算法類別。階層式叢集非常適合用於階層式資料,例如植物園分類。階層式叢集演算法有兩種類型:

  • 匯總叢集會先將每個範例指派給各自的叢集,接著疊代合併最近的叢集以建立階層式樹狀結構。
  • 「分群叢集」會先將所有範例組成同一個叢集,然後疊代將叢集分成階層式樹狀結構。

以 centroid 為基礎的叢集相比。

K

k-means

#clustering

採用熱門分群演算法,將非監督式學習範例分組。k-means 演算法基本上會執行下列作業:

  • 疊代決定最佳 k 中心點 (也稱為 centroid)。
  • 將每個範例指派給最接近的 centroid。例如,相同 centroid 的例子都屬於同一個群組。

k-means 演算法會選取質心位置,盡可能將每個範例與最接近的質心之間的距離正方形累計到最小。

例如,請考量狗狗的高度和狗寬度的圖:

有數十個資料點的笛卡兒情節圖。

如果 k=3,則 k-means 演算法會判定三個質心。每個範例都會指派給最接近的質心,然後產生三個群組:

與上圖所示的笛卡兒劇情圖,但增加了三個質心圖片。先前的資料點會分到三個不同的群組,每個群組代表最接近特定質心的資料點。

假設某間製造商想為小狗、中型和大型毛衣指定理想的尺寸。這三個 centroid 代表該叢集中每隻狗狗的平均高度和平均寬度。因此,製造商應使用這三張質石的毛衣尺寸。請注意,叢集的 centroid 通常「不是」叢集中的範例。

上方的插圖顯示只有兩個功能 (高度和寬度) 的範例 k-means。請注意,k-means 可根據多項功能將範例分組。

k 中位數

#clustering

k-means 密切相關的分群演算法。兩者的差異如下:

  • 在 k-means 中,質感設計是最小化質心候選與每個範例之間的距離平方總和
  • 在 k 中位數,中心值是最小化針對 centroid 候選項目與每個範例之間的距離總和。

請注意,距離的定義也不同:

  • k-means 仰賴從 centroid 到範例的 Euclidean 距離。(在兩個維度中, Euclidean 距離是指使用畢氏定理來計算斜邊)。舉例來說,(2,2) 和 (5,-2) 之間的 k-means 距離如下:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k 中位數取決於從 centroid 到範例的曼哈頓距離。這個距離是每個維度中的絕對差異總和。舉例來說,(2,2) 和 (5,-2) 之間的 k 中位數為:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

相似度評估

#clustering

在「分群演算法中,用於判定兩個範例的喜歡程度 (相似度) 指標。

素描

#clustering

「無監督的機器學習」中,這類類別會對範例執行初步相似度分析。草圖演算法使用區域敏感雜湊函式來識別可能類似的點,然後再將其歸類到值區中。

草圖會減少大型資料集計算相似度所需的運算資源。我們不會計算資料集中每一組範例的相似度,而是只計算每個值區中每對點的相似度。

T

時間序列分析

#clustering

機器學習和統計資料的子欄位,用來分析暫時性資料。許多類型的機器學習問題需要時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據過往的銷售資料,按月預測冬季外套的未來銷售量。

U

未受監督的機器學習技術

#clustering
#fundamentals

訓練模型以找出資料集中的模式 (通常是未加上標籤的資料集)。

未受監督的機器學習最常見的用途,就是將叢集資料整理成一組相似的範例。舉例來說,無監督的機器學習演算法可根據音樂的各種屬性將歌曲分群。產生的叢集可以成為其他機器學習演算法的輸入內容 (例如音樂推薦服務)。當實用的標籤稀少或不存在時,分群法能派上用場。舉例來說,在反濫用和詐欺等領域中,叢集可協助使用者進一步瞭解資料。

監督式機器學習形成對比。