資料準備

本節將回顧機器學習速成課程「使用數值資料」單元中,與群聚分析最相關的資料準備步驟。

在聚類中,您可以將兩個範例的所有特徵資料合併為數值,藉此計算兩個範例之間的相似度。這需要資料集具有相同的比例,您可以透過正規化、轉換或建立分位數來達成這點。如果您想轉換資料,但不檢查其分布情形,可以預設使用分位數。

資料標準化

您可以將多個特徵的資料轉換為相同的比例,方法是將資料正規化。

Z 分

每當您看到資料集的形狀大致類似高斯分布時,就應為資料計算Z 分數。Z 分數是指值與平均值之間相差幾個標準差。如果資料集不夠大,無法用於計算分位數,您也可以使用 Z 分數。

請參閱Z 分數調整一文,瞭解相關步驟。

以下是 z-score 縮放前後,資料集的兩個特徵視覺化圖表:

兩張圖表比較特徵資料在正規化前後的差異
圖 1:特徵資料在標準化前後的比較。

在左側未正規化的資料集中,分別在 X 軸和 Y 軸上繪製的特徵 1 和特徵 2 的比例不相同。在左側,紅色範例與藍色相近或更相似,在右側,經過 z-score 縮放後,特徵 1 和特徵 2 的縮放比例相同,紅色範例看起來會更接近黃色範例。正規化資料集可更準確地評估點之間的相似性。

記錄轉換

如果資料集完全符合冪律分布,且資料在最低值處聚集,請使用對數轉換。請參閱「記錄縮放」一文,瞭解相關步驟。

以下是對數轉換前後的對數法則資料集視覺化圖表:

以低端為主的資料柱狀圖
圖 2:冪律分布。
顯示常態 (高斯) 分布的圖表
圖 3:圖 2 的對數轉換。

在對數縮放前 (圖 2),紅色範例看起來更像黃色。經過對數縮放 (圖 3) 後,紅色會更接近藍色。

分位數

如果資料集不符合已知分佈模式,將資料分割成分位數會很有幫助。以這個資料集為例:

圖表顯示未經過任何預先處理的資料分布
圖 4:未經過任何預處理程序的無法分類分布。

直覺來說,如果兩個範例之間只有少數幾個範例,無論其值為何,兩者就比較相似;如果兩者之間有許多範例,兩者就比較不相似。上方的示意圖無法清楚顯示紅色和黃色之間,或紅色和藍色之間的示例總數。

您可以將資料集劃分為四分位數 (或各包含相同數量範例的間隔),並為每個範例指派四分位數索引,藉此瞭解相似度。請參閱百分位值區隔,瞭解相關步驟。

以下是將前述分布圖劃分為四分位數的結果,顯示紅色與黃色之間相差一個四分位數,藍色與紅色之間相差三個四分位數:

圖表顯示轉換為分位數後的資料。線條代表 20 個間隔。]
圖 5:將圖 4 轉換為 20 個百分位數後的分布。

您可以選擇任意數量的分位數。 \(n\) 不過,如果您希望分位數能有效呈現基礎資料,資料集至少應包含\(10n\) 個例項。如果資料不足,請改為使用標準化功能。

進行隨堂測驗

在下列問題中,假設您有足夠的資料可建立分位數。

第一題

顯示三個資料分布的圖表
您應該如何處理上方圖表中顯示的資料分布情形?
建立分位數。
沒錯。由於分布情形不符合標準資料分布情形,因此您應預設建立分位數。
Normalize。
您通常會在下列情況下將資料標準化:
  • 資料分布是高斯分布。
  • 您對資料在實際情況中代表的意義有一定程度的瞭解,因此建議您不要以非線性方式轉換資料。
這兩種情況都不適用於本案例。資料分布並非對稱,因此不是高斯分布。而且您不知道這些值在現實世界中代表什麼。
記錄轉換。
這並非完美的冪律分布,因此請勿使用對數轉換。

第二題

顯示三個資料分布的圖表
您會如何處理這項資料分布情形?
Normalize。
沒錯。這是高斯分布。
建立分位數。
答錯了。由於這是高斯分佈,因此建議的轉換作業是標準化。
記錄轉換。
答錯了。請只將對數轉換套用至冪律分布。

缺少資料

如果資料集中有某個特徵的範例缺少值,但這些範例很少出現,您可以移除這些範例。如果這些範例經常出現,您可以完全移除該特徵,也可以使用機器學習模型,根據其他範例預測缺少的值。舉例來說,您可以使用以現有特徵資料訓練的迴歸模型,推斷缺少的數值資料