本頁面包含「叢集」一詞的詞彙定義。如要查看所有詞彙表術語,請按這裡。
A
聚合分群
請參閱階層分群。
C
群集中心
由 k-means 或 k-median 演算法決定的叢集中心。舉例來說,如果 k 為 3,則 k-means 或 k-median 演算法會找出 3 個群集中心。
如要進一步瞭解分群演算法,請參閱「分群」課程中的「分群演算法」一節。
以群集中心為基礎的分群
一種分群演算法類別,可將資料分組為非階層叢集。k-means 是目前最常用的以中心點為基礎的分群演算法。
與階層叢集演算法形成對比。
如要進一步瞭解分群演算法,請參閱「分群」課程中的「分群演算法」一節。
分群
將相關的示例分組,尤其是在非監督式學習期間。所有範例都已分組後,您可以選擇為每個叢集提供意義。
目前有許多分群演算法。舉例來說,k-means 演算法會根據示例與群集中心的距離,將示例分組,如下圖所示:
然後由人類研究人員檢查這些叢集,例如將叢集 1 標示為「矮樹」,叢集 2 標示為「全尺寸樹木」。
舉另一個例子來說,請考慮根據範例與中心點的距離,使用叢集演算法,如下所示:
詳情請參閱分群課程。
D
分裂式分群
請參閱階層分群。
H
階層分群法
一種集群分析演算法類別,可建立叢集樹狀結構。階層叢集非常適合階層式資料,例如植物分類法。階層分群演算法分為兩種:
- 聚合分群會先將每個示例指派至各自的叢集,然後以迴圈方式合併最相近的叢集,以建立階層樹狀圖。
- Divisive Clustering 會先將所有範例分組為一個叢集,然後以迴圈方式將叢集分割為階層樹狀結構。
請參閱以中心點為依據的群組化。
如需進一步瞭解,請參閱分群課程中的「分群演算法」一節。
K
k-means
這是一種常見的分群演算法,可在非監督式學習中將範例分組。k-means 演算法基本上會執行以下操作:
- 會以迭代方式判斷最佳 k 個中心點 (稱為 centroids)。
- 將每個示例指派給最近的群集中心。最接近同一中心點的示例屬於同一個群組。
k-means 演算法會挑選群集中心位置,盡量減少每個範例與最近群集中心之間距離的累積平方。
舉例來說,請考量下列狗狗身高與狗狗身寬的圖表:
如果 k=3,k-means 演算法會判斷三個中位點。每個示例都會指派至最近的群集中心,產生三個群組:
假設製造商想決定小型、中型和大型狗狗毛衣的理想尺寸。這三個重心代表該叢集中每隻狗的平均身高和平均寬度。因此,製造商應該根據這三個重心來決定毛衣尺寸。請注意,叢集的中心點通常不是叢集中的示例。
上述圖示顯示 k 均值的範例,其中只有兩個特徵 (高度和寬度)。請注意,k 均值可將多個特徵的範例分組。
k-median
與 k-means 密切相關的分群演算法。這兩者之間的實際差異如下:
- 在 k 均值中,系統會將候選質心與各個示例之間的距離平方和最小化,藉此決定質心。
- 在 k 中位法中,系統會將候選質心與各個示例之間的距離總和降到最低,藉此決定質心。
請注意,距離的定義也不同:
- k-means 會使用從群集中心到範例的歐氏距離。(在二維空間中,歐幾里得距離是指使用畢氏定理來計算對角線。)舉例來說,(2,2) 和 (5,-2) 之間的 k-means 距離為:
- k-median 會使用從群集中心到範例的 曼哈頓距離。這個距離是各維度中絕對差異值的總和。舉例來說,(2,2) 和 (5,-2) 之間的 k 中位數距離為:
S
相似度評估
在分群演算法中,用來判斷任何兩個範例的相似度 (相似程度) 的指標。
素描
在非監督式機器學習中,有一種演算法類別會對範例執行初步相似度分析。草圖繪製演算法會使用 區域敏感雜湊函式來找出可能相似的點,然後將這些點分組。
草圖可減少在大型資料集上進行相似度計算時所需的運算作業。我們不會為資料集中的每組示例計算相似度,而是只計算每個值區中的每組點的相似度。
T
時間序列分析
機器學習和統計學的子領域,用於分析時間序列資料。許多類型的機器學習問題都需要進行時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據歷來銷售資料,按月份預測未來的冬季大衣銷售量。
U
非監督式機器學習
訓練模型,以便在資料集中 (通常是未標記的資料集) 找出模式。
非監督式機器學習最常見的用途,就是將群組資料分組為類似的範例。舉例來說,無監督機器學習演算法可根據音樂的各種屬性,將歌曲分為不同的群組。產生的叢集可做為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當有用的標籤很少或不存在時,分群法就很有幫助。舉例來說,在反濫用和防詐騙等領域,叢集可協助人類更瞭解資料。
請參閱監督式機器學習。