数値データ: 結論

ML モデルの健全性はそのデータによって決まります。エサをあげる 健全なデータをモデル化し 成功を収められるようにすることですモデルのゴミをフィードして 役に立たないでしょう

数値データを操作するためのベスト プラクティス:

  • ML モデルはモデルのデータと 特徴ベクトル、 クラスタ内の dataset
  • 最大正規化 数値特徴
  • 最初の正規化戦略がうまくいかなかった場合は、別の手法を検討する データ正規化の方法です。
  • ビニング(別名) バケット化は、 パフォーマンスが向上します。
  • データの望ましい形式を考慮し、書き込み検証を行う それらの期待値を検証しますたとえば、次のような情報が得られます。
    • 緯度の絶対値が 90 を超えないようにしてください。新しい データ内に 90 より大きい緯度値が含まれているかどうかをテストします。
    • データがフロリダ州に限定されている場合は、テストを記述できます。 緯度が 24 ~ 31 の範囲にあることを確認します
  • 散布図とヒストグラムでデータを可視化します。または 異常を検出できます
  • データセット全体だけでなく、より小さなデータセットの統計情報も収集する データセットのサブセットです。これは集計統計情報が データセット内の小さなセクションでは あいまいな問題を表現します
  • すべてのデータ変換を文書化します。

データは最も重要なリソースであるため、慎重に取り扱ってください。

追加情報

  • ML のルールガイドには、 <ph type="x-smartling-placeholder"></ph> 「Feature Engineering」セクションを受講済みであることを前提としています。

次のステップ

お疲れさまでした。以上で、このモジュールは終了です。

さまざまな MLCC モジュールを受講することをおすすめします。 好きなペースや興味で進めることができます。推奨される順序に従う場合は 次のモジュールに進みましょう。 カテゴリデータの表現