這個頁麵包含叢集詞彙表。如需所有詞彙詞彙,請按這裡。
A
匯總叢集
請參閱階層分群法。
C
centroid
由 k-means 或 k-median 演算法決定的叢集中心。舉例來說,如果 k 為 3,那麼 k-means 或 k-median 演算法就會找到 3 個美分 ID。
以黃葉為基礎的分群法
「分群」演算法會將資料整理成非階層式的叢集。k-means 是最常用的分類類分群演算法演算法。
與階層分群法的演算法相反。
分群
將相關的範例分組,尤其是非監督式學習期間。所有範例都分組後,使用者可選擇為各個叢集提供意義。
許多分群演算法存在。例如,k-means 演算法範例會根據它們與 centroid 的距離,來顯示其範例,如下圖所示:
接著,人工研究員會審查叢集,並將叢集 1 標示為「dwarf 樹木」,叢集 2 則設為「原尺寸樹木」。
另一個例子是,根據範例與中心點的距離,建立分群演算法,如下所示:
D
分群分群
請參閱階層分群法。
H
階層分群
建立叢集樹狀結構的叢集演算法類別。階層式叢集非常適合採用階層式資料,例如機器人分類。階層式演算法分為兩種類型:
- 「Agglomerative clustering」會將每個範例指派給其叢集,並反覆合併最近的叢集,建立階層式樹狀結構。
- 「分離法分群」會將所有範例分組為一個叢集,然後反覆將叢集分割為階層式樹狀結構。
與以 centroid 為基礎的分群法的對比。
K
k-means
一種熱門分群演算法,可將非監督式學習範例分組。k-means 演算法基本上會執行下列動作:
- 反覆疊代最佳 k Center 點 (也稱為 centroids)。
- 將每個範例指派給最接近的 centroid。這些範例最接近的兩個集體屬於同一個群組。
k-means 演算法會挑選頂部位置的距離,將每個範例的累計正方形距離降至最接近的頂點。
例如,請參考以下犬隻寬度與犬隻寬度的分佈圖:
k=3 時,k-means 演算法會判斷三個卵子。每個範例都會指派給最接近的 centroid,進而產生三個群組:
假設某個製造商想為狗狗,選擇尺寸適中的小型、中型和大型毛衣。這三個卵子用於識別叢集中每隻狗狗的平均高度和平均寬度。因此,製造商應將這三塊子宮的尺寸清除起來。請注意,叢集的群狀「通常」並非叢集中的範例。
上圖中以 k-means 為例,其中只有兩個特徵 (高度和寬度)。請注意,k-means 可以運用多項功能將範例分組。
千焦耳中位數
與 k-means 密切相關的叢集演算法。兩者之間的主要差異如下:
- 在 k-means 中,每兩個卵子之間的距離「平方」總和之間會相差的總和,則該黃體的數目是最小的。
- 在 k 中位數時,最小化了甲狀腺候選劑與每次範例之間的相加總和。
請注意,距離的定義也不同:
- k-means 需要將右上角的 Euclidean 距離到範例。(在兩個維度中,Euclidean 距離是指使用畢氏定理算出斜邊)。例如,(2,2) 和 (5,-2) 之間的 k-means 距離如下:
- k-median 需要將人體距離的 manhattan 距離。這個距離是每個維度的絕對差異總和。例如,(2,2) 和 (5,-2) 之間的 k 中位數為:
六
相似度衡量指標
在「分群」演算法中,用來判斷兩個範例相近程度的指標 (類似程度)。
素描
在非監督式機器學習中,對演算法進行初步相似度分析的演算法類別。繪製演算法會使用 位置敏感雜湊函式來識別可能類似的點,並將這些點分組為值區。
素描功能可降低大型資料集進行相似計算所需的運算。我們不會計算資料集內每對一組樣本的相似度,而是只計算每個值區每一點的相似度。
二
時間序列分析
機器學習和統計資料的子欄位,用於分析暫時資料。許多類型的機器學習問題都需要時間序列分析,包括分類、分群、預測和異常偵測。舉例來說,您可以使用時間序列分析,根據歷來銷售資料預測每月的冬季外套銷售量。
U
非監督式機器學習
訓練模型找出資料集中的模式,通常是未加上標籤的資料集。
非監督式機器學習的常見用途,是將叢集叢集分組為類似的範例群組。例如,非監督式機器學習演算法可根據音樂的不同屬性將歌曲分組。產生的叢集可以成為其他機器學習演算法 (例如音樂推薦服務) 的輸入內容。當實用標籤的不足或缺漏時,分群可協助您。舉例來說,在反濫用和詐欺等領域中,叢集可協助叢集進一步瞭解資料。
與監督式機器學習相反。