予測バイアスを計算すると、モデルやトレーニング データに関する問題を早期に特定できます。
予測バイアスは、モデルの予測の平均と、データのグラウンド トゥルース ラベルの平均の差です。メールの 5% が迷惑メールであるデータセットでトレーニングされたモデルは、分類するメールの 5% が迷惑メールであると平均的に予測する必要があります。つまり、正解データセットのラベルの平均は 0.05 であり、モデルの予測の平均も 0.05 にする必要があります。この場合、モデルの予測バイアスはゼロになります。もちろん、モデルには他の問題が残っている可能性があります。
モデルがメールをスパムと予測する割合が 50% の場合、トレーニング データセット、モデルが適用される新しいデータセット、またはモデル自体に問題があります。2 つの平均値に大きな差がある場合は、モデルに予測バイアスがあることを示します。
予測バイアスは、次の原因で発生する可能性があります。
- トレーニング セットの偏ったサンプリングなど、データ内のバイアスやノイズ
- 正則化が強すぎる。つまり、モデルが過度に簡略化され、必要な複雑さが失われている。
- モデル トレーニング パイプラインのバグ
- モデルに提供される特徴のセットがタスクに対して不十分である