數值資料:結論
機器學習 (ML) 模型的健康狀況取決於其資料。提供正確資料給模型,模型就能發揮效用;提供錯誤資料給模型,模型的預測結果就會毫無價值。
處理數值資料的最佳做法:
- 請注意,機器學習模型會與特徵向量中的資料互動,而非資料集中的資料。
- 將大部分正規化
數值特徵。
- 如果第一項正規化策略失敗,請考慮採用其他
更適合將資料正規化
- 分箱 (也稱為分桶) 有時比歸一化更適合。
- 考量資料「應」呈現的樣貌,撰寫驗證測試來驗證這些預期。例如:
- 緯度的絕對值不得超過 90。您可以撰寫
測試,看看資料中是否出現大於 90 的緯度值。
- 如果資料僅限於佛羅里達州,您可以撰寫測試,檢查緯度是否介於 24 到 31 之間 (含兩端)。
- 使用散佈圖和直方圖以視覺化方式呈現資料。查看是否有異常。
- 收集的不僅是整個資料集的資料,也可收集規模較小的統計資料
資料集子集這是因為匯總統計資料有時會掩蓋資料集較小部分的問題。
- 記錄所有資料轉換作業。
資料是最有價值的資源,請謹慎處理。
後續步驟
恭喜您完成本單元!
我們鼓勵您按照自己的步調和興趣,探索各種 MLCC 模組。如果您想按照建議的順序學習,建議您接著前往下一個單元:表示分類資料。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-11-10 (世界標準時間)。
[null,null,["上次更新時間:2024-11-10 (世界標準時間)。"],[[["A machine learning model's predictive ability is directly dependent on the quality of data it's trained on."],["Numerical features often benefit from normalization or binning to improve model performance."],["Data validation through verification tests and visualizations is crucial for identifying and addressing potential issues."],["Understanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems."],["Maintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding."]]],[]]