モデルのトレーニングと評価用のデータを準備する際には、 公平性の問題を念頭に置き、潜在的なリスクの バイアスに基づいて、 モデルを本番環境にリリースする前に、その影響を事前に軽減できます。
バイアスが潜んでいる可能性がある場所以下は、データセットで注意すべき危険信号です。
欠損している特徴値
データセットに 1 つ以上の特徴があり、その特徴に欠損値がある 例の多さから、特定の主要な特徴が 過小評価されています
演習:理解度をチェックする
トレーニング セット内の 5,000 個のサンプルのうち 1,500 個が 気質値の欠如ですソースとなる可能性のある情報源は次のうちどれですか。 調べる必要がありますか?
想定外の特徴値
データを探索するときは、特徴値を含む例も探す必要があります。 特に特徴的でないものや独特なものとして 際立ったものです想定外の機能が データ収集やその他のデータ測定中に発生した バイアスの原因となる可能性のある不正確さ
演習:理解度をチェックする
救助犬を訓練する仮定の例を確認する モデルです。
品種 | 年齢(年) | 体重 (ポンド) | 気性 | shedding_level |
---|---|---|---|---|
トイプードル | 2 | 12 | わくわくする | 低 |
ゴールデン レトリバー | 7 | 65 | 冷静 | 高 |
ラブラドール レトリバー | 35 | 73 | 冷静 | 高 |
フレンチ ブルドッグ | 0.5 | 11 | 冷静 | 中 |
未知の混合種 | 4 | 45 | わくわくする | 高 |
バセットハウンド | 9 | 48 | 冷静 | 中 |
品種 | 年齢(年) | 体重 (ポンド) | 気性 | shedding_level |
---|---|---|---|---|
トイプードル | 2 | 12 | わくわくする | 低 |
ゴールデン レトリバー | 7 | 65 | 冷静 | 高 |
ラブラドール レトリバー | 35 | 73 | 冷静 | 高 |
フレンチ ブルドッグ | 0.5 | 11 | 冷静 | 中 |
未知の混合種 | 4 | 45 | わくわくする | 高 |
バセットハウンド | 9 | 48 | 冷静 | 中 |
ギネス世界記録によって年齢確認された最も古い犬 Bluey でした。 29 歳 5 ヶ月まで生きたオーストラリアのキャトルドッグです。考えると、 ラブラドールレトリバーが 35 歳というのは 犬の年齢が計算または記録されている可能性が 正しくありません(犬は実際には 3.5 歳かもしれません)。このエラーは、 データセット内の年齢データの精度の問題が広がっていることも示している 報告しています
データスキュー
データのスキュー(特定のグループや特性に偏りが生じる) 過小評価または過大評価されている場合でも、 モデルにバイアスを導入します
モデルのパフォーマンスを監査するときは、重要なのは サブグループごとに結果を分割しますたとえば 公平性を確保するために、1 人だけでは不十分です。 全体的な精度に着目しますサブグループごとにパフォーマンスを監査することも必要 各犬種、年齢層、 指定します。
このモジュールの後半のバイアスを評価するでは、 サブグループごとにモデルを評価するさまざまな方法を詳しく見てみましょう。