数値データ: 結論
ML モデルの健全性はデータによって決まります。モデルに健全なデータをフィードすると、モデルは成長します。モデルにジャンク データをフィードすると、予測は無価値になります。
数値データを扱う際のベスト プラクティス:
- ML モデルは、データセットのデータではなく、特徴ベクトルのデータとやり取りします。
- 最大正規化
数値特徴。
- 最初の正規化戦略が成功しなかった場合は、データを正規化する別の方法を検討してください。
- ビニング(別名)
バケット化は、
パフォーマンスが向上します。
- データの望ましい形式を考慮し、書き込み検証を行う
それらの期待値を検証しますたとえば、次のような情報が得られます。
- 緯度の絶対値は 90 を超えないようにしてください。新しい
データ内に 90 より大きい緯度値が含まれているかどうかをテストします。
- データがフロリダ州に限定されている場合は、テストを記述できます。
緯度が 24 ~ 31 の範囲にあることを確認します
- 散布図とヒストグラムを使ってデータを可視化します。異常を探します。
- データセット全体だけでなく、より小さなデータセットの統計情報も収集する
データセットのサブセットです。これは、集計統計情報ではデータセットの小さな部分の問題がわかりにくいことがあるためです。
- すべてのデータ変換を文書化します。
データは最も重要なリソースであるため、慎重に取り扱ってください。
次のステップ
以上で、このモジュールは完了です。
さまざまな MLCC モジュールを受講することをおすすめします。
好きなペースや興味で進めることができます。推奨される順序に従う場合は
次のモジュールに進みましょう。
カテゴリデータの表現。
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2024-11-10 UTC。
[null,null,["最終更新日 2024-11-10 UTC。"],[[["A machine learning model's predictive ability is directly dependent on the quality of data it's trained on."],["Numerical features often benefit from normalization or binning to improve model performance."],["Data validation through verification tests and visualizations is crucial for identifying and addressing potential issues."],["Understanding data distribution through statistics on both the entire dataset and its subsets is essential for identifying hidden problems."],["Maintaining thorough documentation of all data transformations ensures reproducibility and facilitates model understanding."]]],[]]