數值資料:第一步

建立特徵向量之前,建議您透過以下兩種方式研究數值資料:

  • 透過散點圖或圖表以視覺化方式呈現資料。
  • 取得資料統計資料。

資料視覺化

圖表可協助您找出資料中的異常狀況或模式。因此,在深入分析之前,請先以圖形 (散布圖或直方圖) 查看資料。您不僅可以在資料管道開始時查看圖表,還可以在整個資料轉換過程中查看。視覺化資料可協助您持續檢查假設。

建議您使用 pandas 進行視覺化:

請注意,某些資料視覺化工具是針對特定資料格式進行最佳化。視覺化工具可協助您評估通訊協定緩衝區,但不一定能協助您評估 CSV 資料。

統計評估資料

除了視覺分析之外,我們也建議您以數學方式評估潛在特徵和標籤,收集基本統計資料,例如:

  • 平均值和中位數
  • 標準差
  • 四分位數區間的值:第 0、25、50、75 和 100 百分位。第 0 百分位數是這個欄位的最小值,第 100 百分位數是這個欄位的最大值。(第 50 百分位數是中位數)。

找出離群值

異常值是指與特徵或標籤中大多數其他值相距甚遠的值。異常值經常會導致模型訓練出現問題,因此找出異常值非常重要。

如果第 0 百分位數和第 25 百分位數之間的差異,與第 75 百分位數和第 100 百分位數之間的差異有顯著差異,資料集可能含有異常值。

異常值可分為下列任一類別:

  • 異常值是因為錯誤而產生。舉例來說,實驗者可能會誤輸入多一個零,或是收集資料的儀器發生故障。您通常會刪除含有錯誤異常值的示例。
  • 異常值是合法的資料點,不是錯誤。在這種情況下,經過訓練的模型是否最終需要針對這些異常值推斷出良好的預測結果?
    • 如果是,請將這些異常值保留在訓練集。畢竟,某些特徵中的異常值有時會反映標籤中的異常值,因此異常值其實可以協助模型做出更準確的預測。請注意,極端離群值仍可能會影響模型。
    • 如果沒有,請刪除異常值,或採用更侵入性的特徵工程技術,例如裁剪