數值資料:結論

機器學習 (ML) 模型的健康狀態取決於其資料。為 能推動業務成長為模型 就是所謂的「關鍵」

處理數值資料的最佳做法:

  • 請記住,您的機器學習模型與 特徵向量 而非 dataset
  • 將大部分正規化 數值特徵
  • 如果第一項正規化策略失敗,請考慮採用其他 更適合將資料正規化
  • Binning,也稱為 值區分類 比正規化更為容易
  • 考量資料「應該」的外觀,編寫驗證 以及驗證這些期望例如:
    • 緯度的絕對值不應超過 90。您可以撰寫 測試,看看資料中是否出現大於 90 的緯度值。
    • 如果您的資料僅限於佛羅裡達州,您可以編寫測試 檢查緯度是否介於 24 到 31 (含) 之間。
  • 使用散佈圖和直方圖以視覺化方式呈現資料。請尋找 異常狀況
  • 收集的不僅是整個資料集的資料,也可收集規模較小的統計資料 資料集子集這是因為系統有時會 我們會盡量在資料集中的較小版面中呈現問題。
  • 記錄所有資料轉換作業。

資料是最有價值的資源,請謹慎處理。

其他資訊

  • 機器學習的規則指南中提供了重要的 特徵工程一節。

後續步驟

恭喜您完成本單元!

建議您探索各種 MLCC 模組 並依自己的步調和興趣如果要按照建議的順序 建議您前往下一個單元: 呈現類別型資料