モデルのトレーニングと評価用にデータを準備する際は、公平性の問題を念頭に置き、バイアスの潜在的な原因を監査して、モデルを本番環境にリリースする前にその影響を事前に軽減できるようにすることが重要です。
バイアスが潜んでいる可能性のある場所はどこですか?データセットで注意すべき危険信号は次のとおりです。
欠損している特徴値
データセットに、多数のサンプルで欠損値がある特徴が 1 つ以上ある場合、データセットの特定の重要な特性が過小評価されていることを示している可能性があります。
演習: 理解度を確認する
トレーニング セット内の 5,000 個のサンプルのうち、1,500 個のサンプルに気質の値がないことがわかりました。次のうち、調査すべきバイアスの潜在的な原因はどれですか。
想定外の特徴値
データを探索する際は、特に特徴的でない、または異常であるとして際立った特徴値を含む例も探す必要があります。このような予期しない特徴値は、データ収集中に発生した問題や、バイアスをもたらす可能性のある不正確さを示している可能性があります。
演習:理解度をチェックする
救助犬の養子縁組モデルをトレーニングするための次の架空の例を確認します。
品種 | 年齢(年) | 体重(ポンド) | 気性 | shedding_level |
---|---|---|---|---|
トイプードル | 2 | 12 | わくわくする | 低 |
ゴールデン レトリバー | 7 | 65 | 冷静 | 高 |
ラブラドール レトリバー | 35 | 73 | 冷静 | 高 |
フレンチ ブルドッグ | 0.5 | 11 | 冷静 | 中 |
不明な混合種 | 4 | 45 | 興奮しやすい | 高 |
バセット ハウンド | 9 | 48 | 冷静 | 中 |
品種 | 年齢(年) | 体重(ポンド) | 気性 | shedding_level |
---|---|---|---|---|
トイプードル | 2 | 12 | わくわくする | 低 |
ゴールデン レトリバー | 7 | 65 | 冷静 | 高 |
ラブラドール レトリバー | 35 | 73 | 冷静 | 高 |
フレンチ ブルドッグ | 0.5 | 11 | 冷静 | 中 |
不明な混合種 | 4 | 45 | 興奮しやすい | 高 |
バセット ハウンド | 9 | 48 | 冷静 | 中 |
ギネス世界記録で年齢が確認された最長寿の犬は、29 年 5 か月生きたオーストラリアン キャトルドッグの Bluey です。そのため、ラブラドール レトリバーが実際に 35 歳であるという事実はあまり考えられません。また、犬の年齢が計算または正確に記録されていない可能性が高いと言えます(犬は実際には 3.5 歳)。このエラーは、データセット内の年齢データの精度に関する広範な問題を示している可能性があり、さらに調査する必要があります。
データスキュー
データに偏りがあり、特定のグループや特性が実際の割合よりも過小または過大に表現されている場合、モデルにバイアスが生じる可能性があります。
モデルのパフォーマンスを監査する際は、結果を集計で確認するだけでなく、サブグループ別に結果を分類することが重要です。たとえば、Google の「レスキュー ドッグ」導入可能性モデルの場合、公平性を確保するために、全体的な精度に目を向けるだけでは不十分です。また、サブグループ別のパフォーマンスを監査して、犬の品種、年齢グループ、サイズグループごとにモデルのパフォーマンスが同等であることを確認する必要があります。
このモジュールの後半のバイアスの評価では、サブグループごとにモデルを評価するさまざまな方法について詳しく説明します。