機器學習詞彙表:分群

本頁面包含「叢集」一詞的詞彙定義。如要查看所有詞彙表術語,請按這裡

A

聚合分群

#clustering

請參閱階層分群

C

群集中心

#clustering

k-meansk-median 演算法決定的叢集中心。舉例來說,如果 k 為 3,則 k-means 或 k-median 演算法會找出 3 個群集中心。

如要進一步瞭解分群演算法,請參閱「分群」課程中的「分群演算法」一節。

以群集中心為基礎的分群

#clustering

一種分群演算法類別,可將資料分組為非階層叢集。k-means 是目前最常用的以中心點為基礎的分群演算法。

階層叢集演算法形成對比。

如要進一步瞭解分群演算法,請參閱「分群」課程中的「分群演算法」一節。

分群

#clustering

將相關的示例分組,尤其是在非監督式學習期間。所有範例都已分組後,您可以選擇為每個叢集提供意義。

目前有許多分群演算法。舉例來說,k-means 演算法會根據示例與群集中心的距離,將示例分組,如下圖所示:

這張二維圖表的 x 軸標示為樹寬,y 軸標示為樹高。圖表包含兩個中位點和數十個資料點。系統會根據資料點的距離將其分類。也就是說,最接近一個中心點的資料點會歸類為叢集 1,而最接近另一個中心點的資料點則歸類為叢集 2。

然後由人類研究人員檢查這些叢集,例如將叢集 1 標示為「矮樹」,叢集 2 標示為「全尺寸樹木」。

舉另一個例子來說,請考慮根據範例與中心點的距離,使用叢集演算法,如下所示:

數十個資料點以同心圓排列,幾乎就像是圍繞著飛鏢板中心的洞一樣。最內層的資料點環形會歸類為叢集 1,中間環形歸類為叢集 2,最外層環形則歸類為叢集 3。

詳情請參閱分群課程

D

分裂式分群

#clustering

請參閱階層分群

H

階層分群法

#clustering

一種集群分析演算法類別,可建立叢集樹狀結構。階層叢集非常適合階層式資料,例如植物分類法。階層分群演算法分為兩種:

  • 聚合分群會先將每個示例指派至各自的叢集,然後以迴圈方式合併最相近的叢集,以建立階層樹狀圖。
  • Divisive Clustering 會先將所有範例分組為一個叢集,然後以迴圈方式將叢集分割為階層樹狀結構。

請參閱以中心點為依據的群組化

如需進一步瞭解,請參閱分群課程中的「分群演算法」一節。

K

k-means

#clustering

這是一種常見的分群演算法,可在非監督式學習中將範例分組。k-means 演算法基本上會執行以下操作:

  • 會以迭代方式判斷最佳 k 個中心點 (稱為 centroids)。
  • 將每個示例指派給最近的群集中心。最接近同一中心點的示例屬於同一個群組。

k-means 演算法會挑選群集中心位置,盡量減少每個範例與最近群集中心之間距離的累積平方

舉例來說,請考量下列狗狗身高與狗狗身寬的圖表:

包含數十個資料點的笛卡兒圖。

如果 k=3,k-means 演算法會判斷三個中位點。每個示例都會指派至最近的群集中心,產生三個群組:

與前一個插圖相同的笛卡兒圖表,但新增了三個重心。前述資料點已分成三個獨立的群組,每個群組代表最接近特定中心點的資料點。

假設製造商想決定小型、中型和大型狗狗毛衣的理想尺寸。這三個重心代表該叢集中每隻狗的平均身高和平均寬度。因此,製造商應該根據這三個重心來決定毛衣尺寸。請注意,叢集的中心點通常不是叢集中的示例。

上述圖示顯示 k 均值的範例,其中只有兩個特徵 (高度和寬度)。請注意,k 均值可將多個特徵的範例分組。

k-median

#clustering

k-means 密切相關的分群演算法。這兩者之間的實際差異如下:

  • 在 k 均值中,系統會將候選質心與各個示例之間的距離平方和最小化,藉此決定質心。
  • 在 k 中位法中,系統會將候選質心與各個示例之間的距離總和降到最低,藉此決定質心。

請注意,距離的定義也不同:

  • k-means 會使用從群集中心到範例的歐氏距離。(在二維空間中,歐幾里得距離是指使用畢氏定理來計算對角線。)舉例來說,(2,2) 和 (5,-2) 之間的 k-means 距離為:
$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$
  • k-median 會使用從群集中心到範例的 曼哈頓距離。這個距離是各維度中絕對差異值的總和。舉例來說,(2,2) 和 (5,-2) 之間的 k 中位數距離為:
$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

相似度評估

#clustering

分群演算法中,用來判斷任何兩個範例的相似度 (相似程度) 的指標。

素描

#clustering

非監督式機器學習中,有一種演算法類別會對範例執行初步相似度分析。草圖繪製演算法會使用 區域敏感雜湊函式來找出可能相似的點,然後將這些點分組。

草圖可減少在大型資料集上進行相似度計算時所需的運算作業。我們不會為資料集中的每組示例計算相似度,而是只計算每個值區中的每組點的相似度。

T

時間序列分析

#clustering

機器學習和統計學的子領域,用於分析時間序列資料。許多類型的機器學習問題都需要進行時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據歷來銷售資料,按月份預測未來的冬季大衣銷售量。

U

非監督式機器學習

#clustering
#fundamentals

訓練模型,以便在資料集中 (通常是未標記的資料集) 找出模式。

非監督式機器學習最常見的用途,就是將群組資料分組為類似的範例。舉例來說,無監督機器學習演算法可根據音樂的各種屬性,將歌曲分為不同的群組。產生的叢集可做為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當有用的標籤很少或不存在時,分群法就很有幫助。舉例來說,在反濫用和防詐騙等領域,叢集可協助人類更瞭解資料。

請參閱監督式機器學習