本節查看與分群法最相關的資料準備步驟 從 處理數值資料 。
在分群法中,您可以藉由合併 將所有範例的特徵資料轉換為數值。這需要用到 特徵須具有相同的規模 可以正規化、 轉變或建立分位數如果想 不必檢查資料分佈情形,就能將資料預設為分位數
將資料正規化
您可以將多個特徵的資料正規化,以達到相同的規模 實體媒介包括儲存空間陣列 傳統硬碟、磁帶和 USB 隨身碟等
Z 分數
每當您看到類似形狀的資料集 高斯分佈, 應該計算 z-scores 實體媒介包括儲存空間容量Z - 分數代表值介於 平均值。如果資料集不夠大, 分位數
詳情請見 Z 分數縮放 複習步驟
圖表呈現資料集前後兩個特徵 Z 分數縮放:
在左側的未正規化資料集中,特徵 1 和特徵 2 x 軸和 Y 軸分別繪製圖表,其比例不同。每月中的特定幾天 左側的紅色範例 看起來比黃色更接近或更類似右側,之後 z-score 縮放比例、功能 1 和功能 2 的縮放比例相同,紅色 範例更接近黃色範例。經過正規化的資料集提供 可以更準確地測量點之間的相似度
記錄檔轉換
資料集完全符合 權力法分配,其中資料 大量篩選出其值,請使用記錄檔轉換。詳情請見 記錄縮放 複習步驟
下方以視覺化方式呈現記錄轉換前後的強效資料集:
在記錄縮放前 (圖 2),紅色範例看起來與黃色更類似。 記錄縮放後 (圖 3),紅色看起來更接近藍色。
分位數
如果資料集不符合標準 達到已知分佈狀況以這個資料集為例,例如:
直觀來說,如果只有幾個範例出現在 無論其價值觀為何,如果許多範例都不太相似 但在各個階段中上方的圖表使得難以查看 介於紅色和黃色之間,或紅色和藍色之間的樣本數。
只要將資料集分割至 分位數或間隔,當中每個符記都等於樣本數。 以便為各個範例指派分位數索引詳情請見 分位數值區 複習步驟
這裡是前一次的分佈分為分位數,表示紅色是 距離黃色和三個分位數差的一分位數:
您可以任意選擇 \(n\) 分位數。不過,以此分位數來說 才能有效表示基礎資料,您的資料集至少要有 \(10n\) 例子。若資料不足,請改為正規化。
隨堂測驗
針對下列問題,假設您有足夠的資料可建立分位數。
第 1 題
- 資料分佈為高斯文。
- 因此你知道資料在現實世界中代表的 表示資料不應以非線性方式轉換
第二題
缺少資料
如果資料集包含某特徵缺少值的樣本, 這些例子很少出現,您可以移除這些範例。如果這些例子 可以完全移除該功能 您也可以使用機器 預測其他範例的遺漏值 多種機器學習模型舉例來說: 缺少的數值資料 方法是使用 使用現有特徵資料訓練的迴歸模型