本頁面由 Cloud Translation API 翻譯而成。

機器學習詞彙表：分群

本頁面包含「叢集」一詞的詞彙定義。如要查看所有詞彙表術語，請按這裡。

A

聚合分群

#clustering

請參閱階層分群。

C

群集中心

#clustering

由 k-means 或 k-median 演算法決定的叢集中心。舉例來說，如果 k 為 3，則 k-means 或 k-median 演算法會找出 3 個群集中心。

如要進一步瞭解分群演算法，請參閱「分群」課程中的「分群演算法」一節。

以群集中心為基礎的分群

#clustering

一種分群演算法類別，可將資料分組為非階層叢集。k-means 是目前最常用的以中心點為基礎的分群演算法。

與階層叢集演算法形成對比。

如要進一步瞭解分群演算法，請參閱「分群」課程中的「分群演算法」一節。

分群

#clustering

將相關的示例分組，尤其是在非監督式學習期間。所有範例都已分組後，您可以選擇為每個叢集提供意義。

目前有許多分群演算法。舉例來說，k-means 演算法會根據示例與群集中心的距離，將示例分組，如下圖所示：

這張二維圖表的 x 軸標示為樹寬，y 軸標示為樹高。圖表包含兩個中位點和數十個資料點。系統會根據資料點的距離將其分類。也就是說，最接近一個中心點的資料點會歸類為叢集 1，而最接近另一個中心點的資料點則歸類為叢集 2。

然後由人類研究人員檢查這些叢集，例如將叢集 1 標示為「矮樹」，叢集 2 標示為「全尺寸樹木」。

舉另一個例子來說，請考慮根據範例與中心點的距離，使用叢集演算法，如下所示：

數十個資料點以同心圓排列，幾乎就像是圍繞著飛鏢板中心的洞一樣。最內層的資料點環形會歸類為叢集 1，中間環形歸類為叢集 2，最外層環形則歸類為叢集 3。

詳情請參閱分群課程。

D

分裂式分群

#clustering

請參閱階層分群。

H

階層分群法

#clustering

一種集群分析演算法類別，可建立叢集樹狀結構。階層叢集非常適合階層式資料，例如植物分類法。階層分群演算法分為兩種：

聚合分群會先將每個示例指派至各自的叢集，然後以迴圈方式合併最相近的叢集，以建立階層樹狀圖。
Divisive Clustering 會先將所有範例分組為一個叢集，然後以迴圈方式將叢集分割為階層樹狀結構。

請參閱以中心點為依據的群組化。

如需進一步瞭解，請參閱分群課程中的「分群演算法」一節。

K

k-means

#clustering

這是一種常見的分群演算法，可在非監督式學習中將範例分組。k-means 演算法基本上會執行以下操作：

會以迭代方式判斷最佳 k 個中心點 (稱為 centroids)。
將每個示例指派給最近的群集中心。最接近同一中心點的示例屬於同一個群組。

k-means 演算法會挑選群集中心位置，盡量減少每個範例與最近群集中心之間距離的累積平方。

舉例來說，請考量下列狗狗身高與狗狗身寬的圖表：

包含數十個資料點的笛卡兒圖。

如果 k=3，k-means 演算法會判斷三個中位點。每個示例都會指派至最近的群集中心，產生三個群組：

與前一個插圖相同的笛卡兒圖表，但新增了三個重心。前述資料點已分成三個獨立的群組，每個群組代表最接近特定中心點的資料點。

假設製造商想決定小型、中型和大型狗狗毛衣的理想尺寸。這三個重心代表該叢集中每隻狗的平均身高和平均寬度。因此，製造商應該根據這三個重心來決定毛衣尺寸。請注意，叢集的中心點通常不是叢集中的示例。

上述圖示顯示 k 均值的範例，其中只有兩個特徵 (高度和寬度)。請注意，k 均值可將多個特徵的範例分組。

k-median

#clustering

與 k-means 密切相關的分群演算法。這兩者之間的實際差異如下：

在 k 均值中，系統會將候選質心與各個示例之間的距離平方和最小化，藉此決定質心。
在 k 中位法中，系統會將候選質心與各個示例之間的距離總和降到最低，藉此決定質心。

請注意，距離的定義也不同：

k-means 會使用從群集中心到範例的歐氏距離。(在二維空間中，歐幾里得距離是指使用畢氏定理來計算對角線。)舉例來說，(2,2) 和 (5,-2) 之間的 k-means 距離為：

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median 會使用從群集中心到範例的曼哈頓距離。這個距離是各維度中絕對差異值的總和。舉例來說，(2,2) 和 (5,-2) 之間的 k 中位數距離為：

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

S

相似度評估

#clustering

在分群演算法中，用來判斷任何兩個範例的相似度 (相似程度) 的指標。

素描

#clustering

在非監督式機器學習中，有一種演算法類別會對範例執行初步相似度分析。草圖繪製演算法會使用區域敏感雜湊函式來找出可能相似的點，然後將這些點分組。

草圖可減少在大型資料集上進行相似度計算時所需的運算作業。我們不會為資料集中的每組示例計算相似度，而是只計算每個值區中的每組點的相似度。

T

時間序列分析

#clustering

機器學習和統計學的子領域，用於分析時間序列資料。許多類型的機器學習問題都需要進行時間序列分析，包括分類、分群、預測和異常偵測。舉例來說，您可以使用時間序列分析，根據歷來銷售資料，按月份預測未來的冬季大衣銷售量。

U

非監督式機器學習

#clustering

#fundamentals

訓練模型，以便在資料集中 (通常是未標記的資料集) 找出模式。

非監督式機器學習最常見的用途，就是將群組資料分組為類似的範例。舉例來說，無監督機器學習演算法可根據音樂的各種屬性，將歌曲分為不同的群組。產生的叢集可做為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當有用的標籤很少或不存在時，分群法就很有幫助。舉例來說，在反濫用和防詐騙等領域，叢集可協助人類更瞭解資料。

請參閱監督式機器學習。

按一下圖示即可查看其他附註。

主成分分析 (PCA) 是另一種非監督式機器學習的例子。舉例來說，如果在包含數百萬個購物車內容的資料集上套用 PCA，可能會發現含有檸檬的購物車經常也含有制酸劑。