本頁提供分群詞彙解釋。如要查看所有詞彙詞彙,請按這裡。
A
匯總叢集
請參閱階層式叢集。
C
centroid
叢集中心,由 k-means 或 k-median 演算法判定。舉例來說,如果 k 是 3,那麼 k-means 或 k-median 演算法就會找到 3 個質心。
以 centroid 為基礎的分群法
一種「叢集」演算法,可將資料整理成非階層式叢集。k-means 是最常用的以 centroid 為基礎的叢集演算法。
與階層式叢集演算法進行比較。
分群
將相關範例分組,尤其是在非監督式學習期間。將所有範例分組後,一個人可以選擇是否要為每個叢集提供意義。
許多叢集演算法皆存在。例如,k-means 演算法會根據叢集與centroid的鄰近程度建立範例叢集,如下圖所示:
這樣的研究人員就能審查叢集,例如將叢集 1 標示為「矮樹」;叢集 2 則視為「完整大小樹狀結構」。
另一個例子是,根據叢集位置與中心點距離的叢集演算法,如下所示:
D
多元分群法
請參閱階層式叢集。
H
階層分群法
用來建立叢集的叢集演算法類別。階層式叢集非常適合用於階層式資料,例如植物園分類。階層式叢集演算法有兩種類型:
- 匯總叢集會先將每個範例指派給各自的叢集,接著疊代合併最近的叢集以建立階層式樹狀結構。
- 「分群叢集」會先將所有範例組成同一個叢集,然後疊代將叢集分成階層式樹狀結構。
K
k-means
採用熱門分群演算法,將非監督式學習範例分組。k-means 演算法基本上會執行下列作業:
- 疊代決定最佳 k 中心點 (也稱為 centroid)。
- 將每個範例指派給最接近的 centroid。例如,相同 centroid 的例子都屬於同一個群組。
k-means 演算法會選取質心位置,盡可能將每個範例與最接近的質心之間的距離正方形累計到最小。
例如,請考量狗狗的高度和狗寬度的圖:
如果 k=3,則 k-means 演算法會判定三個質心。每個範例都會指派給最接近的質心,然後產生三個群組:
假設某間製造商想為小狗、中型和大型毛衣指定理想的尺寸。這三個 centroid 代表該叢集中每隻狗狗的平均高度和平均寬度。因此,製造商應使用這三張質石的毛衣尺寸。請注意,叢集的 centroid 通常「不是」叢集中的範例。
上方的插圖顯示只有兩個功能 (高度和寬度) 的範例 k-means。請注意,k-means 可根據多項功能將範例分組。
k 中位數
與 k-means 密切相關的分群演算法。兩者的差異如下:
- 在 k-means 中,質感設計是最小化質心候選與每個範例之間的距離平方總和,
- 在 k 中位數,中心值是最小化針對 centroid 候選項目與每個範例之間的距離總和。
請注意,距離的定義也不同:
- k-means 仰賴從 centroid 到範例的 Euclidean 距離。(在兩個維度中, Euclidean 距離是指使用畢氏定理來計算斜邊)。舉例來說,(2,2) 和 (5,-2) 之間的 k-means 距離如下:
- k 中位數取決於從 centroid 到範例的曼哈頓距離。這個距離是每個維度中的絕對差異總和。舉例來說,(2,2) 和 (5,-2) 之間的 k 中位數為:
S
相似度評估
在「分群」演算法中,用於判定兩個範例的喜歡程度 (相似度) 指標。
素描
在「無監督的機器學習」中,這類類別會對範例執行初步相似度分析。草圖演算法使用區域敏感雜湊函式來識別可能類似的點,然後再將其歸類到值區中。
草圖會減少大型資料集計算相似度所需的運算資源。我們不會計算資料集中每一組範例的相似度,而是只計算每個值區中每對點的相似度。
T
時間序列分析
機器學習和統計資料的子欄位,用來分析暫時性資料。許多類型的機器學習問題需要時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據過往的銷售資料,按月預測冬季外套的未來銷售量。
U
未受監督的機器學習技術
訓練模型以找出資料集中的模式 (通常是未加上標籤的資料集)。
未受監督的機器學習最常見的用途,就是將叢集資料整理成一組相似的範例。舉例來說,無監督的機器學習演算法可根據音樂的各種屬性將歌曲分群。產生的叢集可以成為其他機器學習演算法的輸入內容 (例如音樂推薦服務)。當實用的標籤稀少或不存在時,分群法能派上用場。舉例來說,在反濫用和詐欺等領域中,叢集可協助使用者進一步瞭解資料。
與監督式機器學習形成對比。