資料準備

本節查看與分群法最相關的資料準備步驟 從 處理數值資料

在分群法中,您可以藉由合併 將所有範例的特徵資料轉換為數值。這需要用到 特徵須具有相同的規模 可以正規化、 轉變或建立分位數如果想 不必檢查資料分佈情形,就能將資料預設為分位數

將資料正規化

您可以將多個特徵的資料正規化,以達到相同的規模 實體媒介包括儲存空間陣列 傳統硬碟、磁帶和 USB 隨身碟等

Z 分數

每當您看到類似形狀的資料集 高斯分佈, 應該計算 z-scores 實體媒介包括儲存空間容量Z - 分數代表值介於 平均值。如果資料集不夠大, 分位數

詳情請見 Z 分數縮放 複習步驟

圖表呈現資料集前後兩個特徵 Z 分數縮放:

兩個圖表比較正規化前後特徵資料
圖 1:正規化前後的特徵資料比較。

在左側的未正規化資料集中,特徵 1 和特徵 2 x 軸和 Y 軸分別繪製圖表,其比例不同。每月中的特定幾天 左側的紅色範例 看起來比黃色更接近或更類似右側,之後 z-score 縮放比例、功能 1 和功能 2 的縮放比例相同,紅色 範例更接近黃色範例。經過正規化的資料集提供 可以更準確地測量點之間的相似度

記錄檔轉換

資料集完全符合 權力法分配,其中資料 大量篩選出其值,請使用記錄檔轉換。詳情請見 記錄縮放 複習步驟

下方以視覺化方式呈現記錄轉換前後的強效資料集:

大多數資料位於低端的長條圖
圖 2:權力法配電。
顯示正常 (高斯) 分佈的圖表
圖 3:圖 2 的記錄檔轉換

在記錄縮放前 (圖 2),紅色範例看起來與黃色更類似。 記錄縮放後 (圖 3),紅色看起來更接近藍色。

分位數

如果資料集不符合標準 達到已知分佈狀況以這個資料集為例,例如:

顯示任何預先處理之前的資料分佈情形的圖表
圖 4:在任何預先處理之前的無法分類的分佈。

直觀來說,如果只有幾個範例出現在 無論其價值觀為何,如果許多範例都不太相似 但在各個階段中上方的圖表使得難以查看 介於紅色和黃色之間,或紅色和藍色之間的樣本數。

只要將資料集分割至 分位數或間隔,當中每個符記都等於樣本數。 以便為各個範例指派分位數索引詳情請見 分位數值區 複習步驟

這裡是前一次的分佈分為分位數,表示紅色是 距離黃色和三個分位數差的一分位數:

顯示轉換後資料的圖表
  分位數轉換為分位數這條線代表 20 個間隔。]
圖 5:在轉換後的 20 分位數中,圖 4 中的分佈情形。

您可以任意選擇 \(n\) 分位數。不過,以此分位數來說 才能有效表示基礎資料,您的資料集至少要有 \(10n\) 例子。若資料不足,請改為正規化。

隨堂測驗

針對下列問題,假設您有足夠的資料可建立分位數。

第 1 題

顯示三個資料分佈圖的圖表
您如何處理上述的資料分佈情形 圖表?
建立分位數。
沒錯。由於放送管道與 標準資料分佈應該預設為 產生分位數
正規化。
您通常會在下列情況將資料正規化:
  • 資料分佈為高斯文。
  • 因此你知道資料在現實世界中代表的 表示資料不應以非線性方式轉換
這兩種情況都不適用。資料分佈並非高斯文 這些都不對稱或者您不知道 也代表現實世界中的不同部分
記錄檔轉換。
這並非完美的權力分配,因此請不要使用記錄 轉型。

第二題

顯示三個資料分佈圖的圖表
您會如何處理這項資料分佈情形?
正規化。
沒錯。這是高斯分佈。
建立分位數。
答錯了。由於這是高斯分佈,因此建議使用 就是正規化
記錄檔轉換。
答錯了。僅將記錄轉換套用至 Power-awaw 分配。

缺少資料

如果資料集包含某特徵缺少值的樣本, 這些例子很少出現,您可以移除這些範例。如果這些例子 可以完全移除該功能 您也可以使用機器 預測其他範例的遺漏值 多種機器學習模型舉例來說: 缺少的數值資料 方法是使用 使用現有特徵資料訓練的迴歸模型