公平性: バイアスを特定する

モデルのトレーニングと評価用のデータを準備する際には、 公平性の問題を念頭に置き、潜在的なリスクの バイアスに基づいて、 モデルを本番環境にリリースする前に、その影響を事前に軽減できます。

バイアスが潜んでいる可能性がある場所以下は、データセットで注意すべき危険信号です。

欠損している特徴値

データセットに 1 つ以上の特徴があり、その特徴に欠損値がある 例の多さから、特定の主要な特徴が 過小評価されています

演習:理解度をチェックする

救助犬の引き取り可能性を予測するモデルを 性格、年齢、体重、気質 1 日あたりの毛皮の脱落量ですここでの目標は、モデルがトレーニングを 犬の健康状態や犬の身体ともに、 または行動特性

トレーニング セット内の 5,000 個のサンプルのうち 1,500 個が 気質値の欠如ですソースとなる可能性のある情報源は次のうちどれですか。 調べる必要がありますか?

品種によっては、気質データが不足している可能性が高くなります。 検出できます。
気性データが利用可能で犬種と相関がある場合、 結果的に普及率の予測精度が低下する可能性があります。 犬種を分類できます。
12 歳未満の犬では、気性データが欠落する可能性が高くなります。 月経
気性データの利用可能性が年齢と相関する場合、 結果的に普及率の予測精度が低下する可能性があります。 見分けることができます。
大都市から救出されたすべての犬の気質データがありません。
一見すると、これが潜在的なソースであるとは思えないかもしれません バイアスの比率が高くなります。これは、欠落したデータが、 血統、年齢、体重などに関係なく、 ただし、犬の出身地も考慮する必要があります。 物理サーバー インフラストラクチャの 説明します。たとえば、大都市出身の犬が より小型である可能性が、他の地方の犬に比べて大幅に 採用可能性の予測精度が低下する可能性がある領域に重点を置いている 低体重の犬や特定の小型犬の犬種に対して
気質データがデータセットから無作為に欠落しています。
気質データが実際にランダムに欠けている場合、 バイアスの原因になる可能性がありますただし データが無作為に欠損しているように見えますが、 不一致の説明が表示される場合があります重要なのは 徹底的なレビューを行って他の可能性を 除外するのではなく データギャップがランダムであると仮定します。

想定外の特徴値

データを探索するときは、特徴値を含む例も探す必要があります。 特に特徴的でないものや独特なものとして 際立ったものです想定外の機能が データ収集やその他のデータ測定中に発生した バイアスの原因となる可能性のある不正確さ

演習:理解度をチェックする

救助犬を訓練する仮定の例を確認する モデルです。

品種 年齢(年) 体重 (ポンド) 気性 shedding_level
トイプードル 2 12 わくわくする
ゴールデン レトリバー 7 65 冷静
ラブラドール レトリバー 35 73 冷静
フレンチ ブルドッグ 0.5 11 冷静
未知の混合種 4 45 わくわくする
バセットハウンド 9 48 冷静
特徴データに問題はありませんか?
こちらをクリックして正解を確認してください

データスキュー

データのスキュー(特定のグループや特性に偏りが生じる) 過小評価または過大評価されている場合でも、 モデルにバイアスを導入します

モデルのパフォーマンスを監査するときは、重要なのは サブグループごとに結果を分割しますたとえば 公平性を確保するために、1 人だけでは不十分です。 全体的な精度に着目しますサブグループごとにパフォーマンスを監査することも必要 各犬種、年齢層、 指定します。

このモジュールの後半のバイアスを評価するでは、 サブグループごとにモデルを評価するさまざまな方法を詳しく見てみましょう。