データセット: 不均衡なデータセット

値が次のいずれかであるカテゴリラベルを含むデータセットを考えてみましょう。 またはバランスのデータセットにおけるの数 のラベルはほぼ同じですより一般的なラベルが 1 つあれば 場合、データセットは 不均衡。 不均衡なデータセットで支配的なラベルは、ラベルと呼ばれる majority class: あまり一般的でないラベルは、 マイノリティ クラス

次の表に、VM に一般的に受け入れられる名前と範囲を示します。 不均衡の度合いに応じて

少数派クラスに属するデータの割合 不均衡の度合い
データセットの 20 ~ 40%
データセットの 1 ~ 20%
データセットの 1% 未満 エクストリーム

たとえば、ある種の少数派のクラスに感染したウイルス検出データセットを はデータセットの 0.5% を表し、多数派のクラスは 99.5% を表します。 このような極めて不均衡なデータセットは ほとんどの被験者はウイルスに感染しません

図 5. 2 本のバーを含む棒グラフ。1 本のバーでは約 200 と
            陰性クラスもう 1 つの棒には陽性のクラスが 1 つ表示されます。
図 5. データセットが非常にアンバランスです。

 

データセットが不均衡である場合、少数派のクラスが十分ではないことがある モデルを適切にトレーニングできます つまり、陽性のラベルがほとんどない場合、モデルはほぼ 陽性ラベルについて十分に学習できないからですたとえば バッチサイズが 50 の場合、多くのバッチには正のラベルが含まれません。

多くの場合、特にやや不均衡な部分と中程度の不均衡な場合は 不均衡は問題になりませんですから、 元のデータセットでトレーニングを行いますモデルがうまく機能すれば完了です。 そうでない場合は、少なくとも次善のモデルが ベースライン。 その後、以下の方法で問題を解決できるかどうかを試します。 パフォーマンスが向上します

ダウンサンプリングとアップ重み付け

不均衡なデータセットを処理する方法の一つは、データをダウンサンプリングし、 多数ありますこの 2 つの新しい用語の定義は次のとおりです。

  • ダウンサンプリング(ここでは) マジョリティ クラスのかなり少ないサブセットでトレーニングすることを意味する 説明します。
  • 重みのアップとは、 サンプルの重みをダウンサンプリングされたクラスに ダウンサンプリングされます。

ステップ 1: 多数派クラスをダウンサンプリングする。考えてみてください 陰性 200 個につき 1 個の陽性ラベルの比率を持つウイルス データセット できます。次の係数によるダウンサンプリング 20 はバランスが正の 1 から負の 10(10%)に改善されます。ただし、 結果として得られるトレーニング セットは依然として中程度に不均衡で、 元の極端に不均衡なものよりもはるかに良好である 割合(0.5%)とします。

図 6. 2 本のバーを含む棒グラフ。1 本のバーで 20 が否定的
            クラスもう 1 つの棒には陽性のクラスが 1 つ表示されます。
図 6. ダウンサンプリング。

 

ステップ 2: ダウンサンプリングされたクラスの重みをアップする: 例を追加する ダウンサンプリングされたクラスに振り分けます。20 倍にダウンサンプリングした後、 値の例の重みは 20 です。(直感に反するかもしれませんが、後で説明します)。 理由については後で説明します)。

図 7. ダウンサンプリングとアップ重み付けの 2 ステップの図。
            ステップ 1: ダウンサンプリングで大多数からランダムなサンプルを抽出する
            クラスです。ステップ 2: アップ重み付けにより、ダウンサンプリングされたデータに重みが追加される
            説明します。
図 7. アップウェイト。

 

「重み」という用語は、モデル パラメータ(w1 や w2)。ここでいう「重み」とは、 サンプルの重み付け: 個々のサンプルの重要度が高まります。 必要があります。サンプルの重み 10 は、モデルがサンプルを サンプルの 10 倍の重要性(損失を計算する場合) 重み 1.

重みは、ダウンサンプリングするために使用した係数と等しくする必要があります。

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

ダウンサンプリング後にサンプルの重みを追加するのは奇妙に思われるかもしれません。結局のところ、 少数派のクラスでモデルを改善しようとします。 では?実際、多数派のクラスの重みを上げると、 予測バイアス。つまり ダウンサンプリング後の重みを上げると、平均値と モデルの予測の信頼度とデータセットのラベル 平均が表示されます

比率の再調整

データセットを再調整するために、どれくらいのダウンサンプリングとアップウェイトを行うべきか? 答えを決定するには、リバランシング率、 他のテストと同様に ハイパーパラメータ。 ただし、その答えは、最終的には以下の要因によって決まります。

  • バッチサイズ
  • 不均衡率
  • トレーニング セットのサンプル数

理想的には、各バッチには少数派のクラスの例を複数含めるべきです。 十分な少数派のクラスが含まれないバッチは、トレーニングが非常に悪くなります。 バッチサイズは不均衡率の数倍の大きさにする必要があります。 たとえば、不均衡比が 100:1 の場合、バッチサイズは 500 以上にする必要があります。

演習:理解度をチェックする

次のような状況を考えてみましょう。

  • バッチサイズは 128 です。
  • 不均衡比は 100:1 です。
  • このトレーニング セットには 10 億の例が含まれています。
次の説明のうち正しいものはどれですか。
バッチサイズを 1,024 に増やすと、 モデルです。
バッチサイズが 1,024 の場合、各バッチは平均で約 10 少数派のクラスの例であり、トレーニングにはこれで十分です。 ダウンサンプリングを行わないと、トレーニング セットにはダウンサンプリング 10 億例。
バッチサイズを維持したまま 20:1 にダウンサンプリング(および重み付け) 128 に設定すると、生成されるモデルが改善されます。
各バッチでは、マイノリティのクラスサンプルは平均で約 9 個になります。 トレーニングには十分ですダウンサンプリングは、 トレーニング セット内のサンプル数を 10 億から 4,000 万人
現状は問題ありません。
ほとんどのバッチには、有用な少数派のクラスをトレーニングするのに モデルです。