數值資料:結論

機器學習 (ML) 模型的健康狀況取決於其資料。提供正確資料給模型,模型就能發揮效用;提供錯誤資料給模型,模型的預測結果就會毫無價值。

處理數值資料的最佳做法:

  • 請注意,機器學習模型會與特徵向量中的資料互動,而非資料集中的資料。
  • 將大部分正規化 數值特徵
  • 如果第一項正規化策略失敗,請考慮採用其他 更適合將資料正規化
  • 分箱 (也稱為分桶) 有時比歸一化更適合。
  • 考量資料「應」呈現的樣貌,撰寫驗證測試來驗證這些預期。例如:
    • 緯度的絕對值不得超過 90。您可以撰寫 測試,看看資料中是否出現大於 90 的緯度值。
    • 如果資料僅限於佛羅里達州,您可以撰寫測試,檢查緯度是否介於 24 到 31 之間 (含兩端)。
  • 使用散佈圖和直方圖以視覺化方式呈現資料。查看是否有異常。
  • 收集的不僅是整個資料集的資料,也可收集規模較小的統計資料 資料集子集這是因為匯總統計資料有時會掩蓋資料集較小部分的問題。
  • 記錄所有資料轉換作業。

資料是最有價值的資源,請謹慎處理。

其他資訊

  • 機器學習規則指南包含實用的「特徵工程」章節。

後續步驟

恭喜您完成本單元!

我們鼓勵您按照自己的步調和興趣,探索各種 MLCC 模組。如果您想按照建議的順序學習,建議您接著前往下一個單元:表示分類資料