データセット: クラスの不均衡なデータセット

このセクションでは、次の 3 つの質問について説明します。

クラスバランスデータセットとクラス不均衡データセットの違いは何ですか？
不均衡なデータセットのトレーニングが難しい理由
不均衡なデータセットのトレーニングの問題を克服するにはどうすればよいですか？

クラスバランスデータセットとクラス不均衡データセット

値が正のクラスまたは負のクラスのいずれかであるカテゴリカル ラベルを含むデータセットを考えてみましょう。クラスバランスデータセットでは、陽性クラスと陰性クラスの数がほぼ同じです。たとえば、235 個の正のクラスと 247 個の負のクラスを含むデータセットは、バランスの取れたデータセットです。

クラス不均衡データセットでは、一方のラベルが他方よりもはるかに一般的です。実際には、クラスバランスデータセットよりもクラス不均衡データセットの方がはるかに一般的です。たとえば、クレジットカード取引のデータセットでは、不正購入がサンプルの 0.1% 未満である可能性があります。同様に、医療診断データセットでは、まれなウイルスに感染している患者の数が、総サンプル数の 0.01% 未満になることがあります。クラスの不均衡なデータセットの場合:

より一般的なラベルは、多数派クラスと呼ばれます。
あまり一般的でないラベルは、少数派クラスと呼ばれます。

クラスの不均衡が著しいデータセットのトレーニングの難しさ

トレーニングは、ポジティブクラスとネガティブクラスを正しく区別するモデルを作成することを目的としています。そのためには、バッチに十分な数の正のクラスと負のクラスの両方が必要です。クラスの不均衡がわずかなデータセットでトレーニングを行う場合、通常は小さなバッチにも陽性クラスと陰性クラスの両方の十分な例が含まれているため、問題はありません。ただし、クラスの不均衡が著しいデータセットには、適切なトレーニングを行うための少数派クラスの例が十分にない可能性があります。

たとえば、図 6 に示すクラスの不均衡なデータセットを考えてみましょう。このデータセットでは、次のようになっています。

200 個のラベルが多数派クラスに属している。
2 つのラベルが少数派クラスに属しています。

図 6. 202 個の例を含むデータセット。200 個の例にはヒマワリのラベルが付けられ、2 個の例にはバラのラベルが付けられています。 — **図 6.** バラよりもヒマワリがはるかに多い、非常に不均衡な花のデータセット。

バッチサイズが 20 の場合、ほとんどのバッチには少数派クラスの例が含まれません。バッチサイズが 100 の場合、各バッチには平均で 1 つの少数派クラスの例しか含まれません。これは適切なトレーニングを行うには不十分です。バッチサイズを大幅に大きくしても、モデルが適切にトレーニングされないほど不均衡な割合になることがあります。

クラスの不均衡なデータセットのトレーニング

トレーニング中、モデルは次の 2 つを学習する必要があります。

各クラスがどのようなものか（どの特徴値がどのクラスに対応するか）。
各クラスの一般的な度合い（クラスの相対分布）。

標準的なトレーニングでは、この 2 つの目標が混同されます。一方、多数派クラスのダウンサンプリングとアップウェイトと呼ばれる次の 2 段階の手法では、この 2 つの目標が分離され、モデルが両方の目標を達成できるようになります。

多数派クラスのダウンサンプリングとアップウェイトは、直感に反する部分があることに注意してください。

ステップ 1: メジャークラスをダウンサンプリングする

ダウンサンプリングとは、メジャークラスのサンプルを不均衡に低い割合でトレーニングすることを意味します。つまり、多数派クラスの例の多くをトレーニングから除外することで、クラスの不均衡なデータセットを人為的にややバランスの取れた状態にします。ダウンサンプリングにより、各バッチにモデルを適切かつ効率的にトレーニングするのに十分な少数派クラスのサンプルが含まれる確率が大幅に高まります。

たとえば、図 6 に示すクラス不均衡データセットは、99% のメジャークラスと 1% のマイナークラスの例で構成されています。メジャークラスを 25 分の 1 にダウンサンプリングすると、図 7 に示すように、よりバランスの取れたトレーニングセット（メジャークラス 80%、マイナークラス 20%）が人工的に作成されます。

図 7. 10 個の例のうち、8 個がひまわりで、2 個がバラ。 — **図 7.** メジャークラスを 25 分の 1 にダウンサンプリングします。

ステップ 2: ダウンサンプリングされたクラスの重みを増やす

ダウンサンプリングでは、クラスのバランスが実世界よりも取れている人工的な世界をモデルに提示することで、予測バイアスが生じます。このバイアスを修正するには、ダウンサンプリングした係数で多数派クラスを「アップウェイト」する必要があります。アップウェイトとは、マイナークラスの例の損失よりも、マジョリティクラスの例の損失を厳しく扱うことです。

たとえば、メジャークラスを 25 分の 1 にダウンサンプリングした場合は、メジャークラスの重みを 25 倍にする必要があります。つまり、モデルが多数派クラスを誤って予測した場合は、損失を 25 個のエラーとして扱います（通常の損失に 25 を掛けます）。

図 8. マイナークラスの誤予測に対する損失は通常どおりに処理されます。ただし、多数派クラスの誤った予測に対する損失は 25 倍厳しく扱われます。 — **図 8.** メジャークラスの重みを 25 倍に増やします。

データセットのバランスを調整するには、ダウンサンプリングとアップウェイトをどの程度行う必要がありますか？答えを判断するには、他のハイパーパラメータを試す場合と同様に、さまざまなダウンサンプリングとアップウェイトの係数を試す必要があります。

この手法のメリット

多数派クラスをダウンサンプリングしてアップウェイトすると、次のようなメリットがあります。

より優れたモデル: 結果のモデルは、次の両方を「認識」します。
- 特徴量とラベルの関係
- クラスの真の分布
収束の高速化: トレーニング中に、モデルは少数クラスをより頻繁に認識するため、モデルの収束が速くなります。

ラベル（10 分）

元のデータセットを分割する（10 分）