データを調査してモデルで表現する最適な方法を決定する際には、公平性の問題を念頭に置き、バイアスの発生源を事前に監査することも重要です。
バイアスがどこに入り込むかデータセットで注意すべき 3 つの警告は、
欠損している特徴値
データセットに多数の例に対する欠損値を持つ特徴がある場合、そのデータセットに含まれる特定の特徴が過小評価されている可能性があります。
たとえば、次の表は、pandas DataFrame
に保存され、DataFrame.describe
を介して生成されるカリフォルニア州の住宅のデータセット内にある、対象物の一部に関する主要な統計情報の概要を示しています。なお、すべての特徴には count
の 17, 000 が設定されています。これは、欠損値がないことを示しています。
longitude | 緯度 | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
カウント | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 | 17,000.0 |
mean | ~ 119.6 | 35.6 | 2,643.7 | 1,429.6 | 501.2 | 3.9 | 207.3 |
標準 | 2.0 | 2.1 | 2,179.9 | 1,147.9 | 38,450 | 1.9 | 116.0 |
min | ~ 124.3 | 325 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 人 | 1,462.0 | 790.0 | 282.0 | 2.6 | 119.4 人 |
50% | ~ 118.5 | 342 | 2,127.0 | 1,167.0 | 409.0 | 3.5 | 180.4 人 |
75% | ~ 118.0 | 37.7 | 3,151.2 | 1,721.0 | 605.2 | 4.8 | 26,500 |
最高 | ~ 114.3 | 42.0 | 37,937.0 | 35,682.0 | 6,082.0 | 15.0 | 500.0 |
代わりに、3 つの特徴(population
、households
、median_income
)のカウントが 3000
(つまり、各特徴の欠損値が 14,000)であるとします。
longitude | 緯度 | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
カウント | 17,000.0 | 17,000.0 | 17,000.0 | 3,000.0 | 3,000.0 | 3,000.0 | 17,000.0 |
mean | ~ 119.6 | 35.6 | 2,643.7 | 1,429.6 | 501.2 | 3.9 | 207.3 |
標準 | 2.0 | 2.1 | 2,179.9 | 1,147.9 | 38,450 | 1.9 | 116.0 |
min | ~ 124.3 | 325 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 人 | 1,462.0 | 790.0 | 282.0 | 2.6 | 119.4 人 |
50% | ~ 118.5 | 342 | 2,127.0 | 1,167.0 | 409.0 | 3.5 | 180.4 人 |
75% | ~ 118.0 | 37.7 | 3,151.2 | 1,721.0 | 605.2 | 4.8 | 26,500 |
最高 | ~ 114.3 | 42.0 | 37,937.0 | 35,682.0 | 6,082.0 | 15.0 | 500.0 |
これら 14,000 個の欠損値により、世帯収入の中央値と住宅価格の中央値を正確に相関させることが非常に困難になります。このデータでモデルをトレーニングする前に、これらの欠損値の原因を調査して、収入と人口のデータが失われる潜在的な潜在バイアスがないことを確認する必要があります。
予期しない特徴値
データを調べるときは、特に特徴がない、または特異な特徴値を持つ特徴値を含むサンプルを探す必要もあります。これらの予期しない特徴値は、データ収集中に発生した問題や、バイアスを引き起こす可能性があるその他の不正確な点を示している可能性があります。
たとえば、カリフォルニアの住宅に関するデータセットから次の抜粋された例を見てみましょう。
longitude | 緯度 | total_rooms | population | households | median_income | median_house_value | |
---|---|---|---|---|---|---|---|
1 | ~ 121.7 | 38.0 | 7,105.0 | 3,523.0 | 1,088.0 | 5.0 | 0.2 |
2 | ~ 122.4 | 37.8 | 2,479.0 | 1,816.0 | 496.0 | 3.1 | 0.3 |
3 | -122.0 | 370 | 2,813.0 | 1,337.0 | 477.0 | 3.7 | 0.3 |
4 | -103.5 | 438 | 2,212.0 | 803.0 | 144.0 | 5.3 | 0.2 |
5 | -117.1 人 | 328 | 2,963.0 | 1162.0 | 556.0 | 3.6 | 0.2 |
6 | ~ 118.0 | 337 | 3,396.0 | 1,542.0 | 472.0 | 7.4 | 0.4 |
予期しない特徴値を特定することができますか?
データスキュー
データになんらかの偏りがある(特定のグループまたは特性が現実の出現頻度と比較して過小または過大に表現されている可能性がある)場合は、モデルにバイアスが生じる可能性があります。
検証プログラミングの演習を完了した場合、トレーニング セットと検証セットに分割する前にカリフォルニア州のデータセットをランダム化できなかった場合、データスキューが顕著だったことを思い出してください。図 1 は、カリフォルニア州の北西部地域のみを表すデータセット全体から抽出されたデータのサブセットを可視化したものです。
図 1. カリフォルニア州の住宅に関するデータセットのデータと重ねられたカリフォルニア州の地図。各ドットは住宅ブロックを表し、色は青から赤まで、それぞれ住宅価格の中央値から低値から高値に対応しています。
この非代表サンプルを使用して、州全体のカリフォルニア州の住宅価格を予測するモデルをトレーニングした場合、カリフォルニア南部の住宅データが存在しないことは問題になります。モデルにエンコードされた地域バイアスは、表明されていないコミュニティの住宅購入者に対して悪影響を及ぼす可能性があります。