這個頁面含有叢集詞彙表字詞。如需所有詞彙表字詞,請按這裡。
A
聚合式分群法
請參閱階層分群相關說明。
C
群集中心
由 k-means 或 k-median 演算法判定的叢集中心。舉例來說,如果 k 是 3,則 k-means 或 k-median 演算法會尋找 3 個中心數。
群集型分群法
這是一種分群法演算法,能將資料整理成非階層式叢集。k-means 是最廣泛使用的群子型分群演算法。
與階層分群演算法相比。
分群法
將相關範例分組,特別是在非監督式學習期間。將所有範例分組後,人類可以選擇為每個叢集提供意義。
有許多分群演算法存在。以 k-means 演算法叢集為例,這些叢集範例將其與 centroid 的距離相近,如下圖所示:
接著,真人研究人員可以審查叢集,將叢集 1 標示為「矮樹」,叢集 2 則設為「原尺寸樹木」。
再舉一個例子,根據範例與中心點的距離建立叢集演算法,如下所示:
D
多樣化分群法
請參閱階層分群相關說明。
H
階層分群
建立叢集樹狀結構的「分群」演算法類別。階層分群非常適合用於階層資料,例如植物分類。階層分群演算法有兩種:
- 匯總分群會先將每個範例指派給自己的叢集,然後反覆地合併最近的叢集來建立階層樹狀結構。
- 多元化分群會先將所有範例分為一個叢集,然後再逐步將叢集分為階層式樹狀結構。
這是與以群集為基礎的分群法之間的對比。
K
k-means
熱門的「分群法」演算法,將非監督式學習中的範例分組。k-means 演算法基本上會執行以下作業:
- 疊代判斷最佳的 k 中心點 (又稱為「質心」)。
- 將每個範例指派給最近的中心集。最靠近相同群集中心的範例屬於同一群組。
k-means 演算法會挑選群集中心位置,盡量減少從每個樣本到其最近群集的累積平方。
舉例來說,假設下圖顯示犬隻高度到狗的寬度:
如果 k=3,k-means 演算法就會判斷三個質量。每個範例都會指派至最接近的中心點,進而產生三個群組:
假設製造商想判斷適用於狗的理想尺寸,例如中小、中、大毛衣。三個中心點可識別該叢集中每隻狗狗的平均高度和平均寬度。所以製造商應該使用這 3 個中心基調來生產毛衣請注意,叢集的質心通常「不是」叢集中的範例。
上圖顯示只有兩個地圖項目 (高度和寬度) 的範例 k-means。請注意,k-means 可將許多特徵中的範例分組。
k 中位數
叢集演算法與 k-means 密切相關,兩者的實際差異如下:
- 在 k-means 中,群集中心是透過盡量降低質心候選項目與每個範例之間距離的「平方」總和。
- 在 k-median 中,中心會透過盡量減少質心候選候選項目與每個樣本之間的距離總和來決定。
請注意,距離的定義也不同:
- k-means 的計算依據是從質心到範例的歐幾里德距離。(在兩個維度中,歐幾裡度距離是指使用畢氏定理來計算斜邊)。例如,(2,2) 和 (5,-2) 之間的 k-means 距離會是:
- k-median 的評估依據是來自中心點的 Manhattan 距離。這個距離是各維度絕對差異值的總和。例如,(2,2) 和 (5,-2) 之間的 k-中位數距離為:
六
相似度度量
在「分群」演算法中,用來判斷兩個範例是否相似 (程度) 的指標。
素描
在非監督式機器學習中,這是對範例執行初步相似度分析的演算法類別。草圖演算法使用 區域敏感雜湊函式找出可能相似的點,然後將這些點分組為值區。
草圖會降低大型資料集相似度計算所需的運算。我們只會計算每個值區中每組資料點的相似性,而不會計算資料集中每組範例的相似性。
T
時間序列分析
分析臨時資料的機器學習和統計資料子欄位。許多類型的機器學習問題都需要時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據歷來銷售資料,預測每個月的冬季外套的未來銷售量。
U
非監督式機器學習
訓練model找出資料集中模式 (通常是未加上標籤的資料集)。
非監督式機器學習最常見的用途是將資料分群為相似的範例群組。舉例來說,非監督式機器學習演算法可以根據音樂的各種屬性建立歌曲叢集。產生的叢集可以成為其他機器學習演算法的輸入內容 (例如音樂推薦服務)。稀缺或缺少有用的標籤時,分群就能派上用場。舉例來說,在反濫用和詐欺等領域,叢集可協助人類進一步瞭解資料。
對比監督式機器學習技術。