本番環境 ML システム: 知識をテストする

ML を使用して、ユニコーンの出現を予測する分類モデルを構築しています。このデータセットには、ユニコーンの出現が 10,000 回、不出現が 10,000 回含まれています。このデータセットには、場所、時刻、標高、気温、湿度、樹木被覆、虹の有無、その他の特徴が含まれています。

ユニコーンの外観予測ツールを起動した後、新しいデータで再トレーニングして、モデルを最新の状態に保つ必要があります。トレーニングに使用する新しいデータが多すぎるため、新しいデータを一定の時間枠でサンプリングしてトレーニングデータを制限することにしました。また、ユニコーンの出現の日別パターンと年間パターンも考慮する必要があります。どの時間枠を選択しますか？

ある日、ウィンドウを大きくすると大量のデータが生成され、モデルのトレーニングに時間がかかりすぎるため。

データセットが大きすぎないように 1 週間。ただし、パターンを滑らかに整えることもできます。

1 年間: モデルが年間パターンによってバイアスを受けないようにします。

トレーニングサービングスキュー: モデルがサービングを開始した後、ある時点でサービングデータの形式が徐々に変化しました。

トレーニング中の指標として精度を使用しました。

モデルは最新ではありません。

上記のいずれでもない。

南極向けのトレーニングサンプルが不足していました。

静的トレーニングではなく動的トレーニングを使用した。

モデルが古くなっている。

上記すべて。

予測の質が高いと、ユーザーがユニコーンを見つけやすくなります。これは、ユニコーンの見え方そのものに影響します。

都市部はモデル化が困難です。

人口の多い地域ではユニコーンの出現が複数回報告されるため、トレーニングデータに歪みが生じます。

モデルを動的トレーニングから静的トレーニングに切り替える。

モデルを動的推論から静的推論に切り替える。

サービング前にモデルの品質を検証する。

上記の解決策はどれも役に立ちません。