公平性: バイアスの軽減

バイアスの原因になると 特定できたら、事前の対策を講じて、 軽減できます。機械学習(ML)には主に 2 つの戦略があります。 エンジニアが一般的に採用するバイアスの修復方法:

  • トレーニング データの拡張。
  • モデルの損失関数を調整する。

トレーニング データの拡張

トレーニング データの監査でデータの欠落、誤り、 データに偏りがある場合、その問題に対処する最も簡単な方法は、 追加データを収集できます

ただし、トレーニング データを拡張することは理想的ですが、 この方法が現実的でない場合もあります。 制約により、データの収集を妨げる場合があります。たとえば より多くのデータを収集するには、コストや時間がかかりすぎる、あるいは 法的/プライバシーに関する制限。

モデルの最適化関数の調整

追加のトレーニング データを収集することが不可能な場合は、 バイアスを軽減するアプローチは、モデルの使用過程で損失の計算方法を調整することです。 説明します。通常、次のような最適化関数を使用します。 ログ損失(誤ったモデルにペナルティをかける) 説明します。ただし、ログ損失によってサブグループ メンバーシップが 検討する必要がありますそのため、ログ損失を使用する代わりに、ログの 公平性に配慮した方法で、エラーにペナルティを課すよう トレーニング データで特定した不均衡を補います。

TensorFlow Model Remediation Library には、2 つのモデルを適用するためのユーティリティが いくつかのバイアス軽減手法があります。

  • MinDiff: MinDiff の目的は 2 つの異なるデータスライスの誤差のバランスを取ること (男子/女子の生徒とノンバイナリーの生徒の比較)にペナルティを 2 つのグループの予測分布の差です。

  • 反事実的ロジット ペアリング: 反事実的ロジット ペアリング(CLP)は、 属性を使用しても、そのサンプルに対するモデルの予測は 例です。たとえば、トレーニング データセットに 2 つのサンプルがあり、 特徴値は同じですが、1 つは gender 値が male で、 もう一方の gender の値が nonbinary で、次の場合にペナルティが追加されます。 これら 2 つの例の予測は異なります。

最適化関数を調整するために選択する手法は、以下のとおりです。 モデルのユースケースによって異なります。次のセクションでは モデルの公平性を評価するタスクへのアプローチ方法を詳しく知る 適切なオプションを選択することをおすすめします

演習:理解度をチェックする

バイアス軽減手法に関する以下の説明のうち、正しいものはどれですか。
MinDiff と CLP はどちらも、モデルのパフォーマンスの差異にペナルティをかける 機密属性に関連付けて
どちらの手法も、予測にペナルティを課してバイアスを緩和することを目的としています。 機密性が高い属性の不均衡から生じるエラー モデルに与えられます。
MinDiff は、次のものの全体的な分布の差異にペナルティを課す 使用するのに対し、CLP ではペナルティがかかる 例の個々のペアに対する予測の不一致
MinDiff は 2 つのスコア分布を揃えてバイアスに対処する サブグループを作成します。CLP は、個々のサンプルが サブグループ メンバーシップだけに起因して異なる方法で扱われることはありません。
トレーニング データセットにさらにサンプルを追加すると、 バイアスに対応する方法を学びます。
トレーニング サンプルを増やすことは、 バイアスを軽減しますが、新しいトレーニング データの構成は 重要です追加のトレーニング例で同様の傾向が 元のデータとのバランスが取れていないため、 理解できます
トレーニング データを増やしてバイアスを軽減する場合、 トレーニング中に MinDiff や CLP も適用すべきではありません。
トレーニング データを拡張し、MinDiff や CLP などの手法を適用する 補完的になることができます。たとえば ML エンジニアは 差異を軽減するために十分な追加トレーニング データを収集する パフォーマンスを 30% 低減してから、MinDiff を使用して 50%削減できます