當您探索資料,以判斷在模型中如何呈現資料的最佳方式時,也請務必謹記公平性問題,並主動稽核潛在偏見來源。
偏見可能偏離哪裡?以下是資料集中需注意的三個紅色標記。
缺少特徵值
如果您的資料集有一或多個功能缺少大量範例的數值,這可能表示某些資料集的某些特徵不足。
舉例來說,下表顯示加州住宅資料集中部分特徵的主要統計資料摘要,該資料儲存在熊貓 DataFrame
中,透過 DataFrame.describe
產生。請注意,所有功能的 count
都為 17000,表示沒有遺漏的值:
longitude | latitude | total_rooms | 人口 | 家庭 | 中位數收入 | 房舍值中位數 | |
---|---|---|---|---|---|---|---|
數量 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 | 17000.0 |
平均值 | -119.6 | 55.6 | 2643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
標準 | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
分 | -124.3 | 52.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
50% | -118.5 | 34.2 | 2127.0 | 1167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7 | 3151.2 | 1721.0 | 605.2 | 4.8 | 265.0 |
最高 | -114.3 | 42.0 | 37937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
假設三個特徵 (population
、households
和 median_income
) 只有 3000
的計數,換句話說,每個特徵缺少 14,000 個值:
longitude | latitude | total_rooms | 人口 | 家庭 | 中位數收入 | 房舍值中位數 | |
---|---|---|---|---|---|---|---|
數量 | 17000.0 | 17000.0 | 17000.0 | 3000.0 | 3000.0 | 3000.0 | 17000.0 |
平均值 | -119.6 | 55.6 | 2643.7 | 1429.6 | 501.2 | 3.9 | 207.3 |
標準 | 2.0 | 2.1 | 2179.9 | 1147.9 | 384.5 | 1.9 | 116.0 |
分 | -124.3 | 52.5 | 2.0 | 3.0 | 1.0 | 0.5 | 15.0 |
25% | -121.8 | 33.9 | 1462.0 | 790.0 | 282.0 | 2.6 | 119.4 |
50% | -118.5 | 34.2 | 2127.0 | 1167.0 | 409.0 | 3.5 | 180.4 |
75% | -118.0 | 37.7 | 3151.2 | 1721.0 | 605.2 | 4.8 | 265.0 |
最高 | -114.3 | 42.0 | 37937.0 | 35682.0 | 6082.0 | 15.0 | 500.0 |
這 14,000 個缺少的數值將使我們更難準確地將家庭收入中位數與家庭價格中位數建立關聯。在針對這項資料訓練模型之前,建議您先調查這些缺少值的原因,確保不會因缺少收入和人口資料而造成隱含偏誤。
未預期的特徵值
探索資料時,您也應尋找具有特別實用或異常特徵的特徵值範例。這些非預期的特徵值可能代表在資料收集期間發生的問題,或者其他可能產生偏誤的問題。
例如,看看下列來自加州住房資料集的摘錄範例:
longitude | latitude | total_rooms | 人口 | 家庭 | 中位數收入 | 房舍值中位數 | |
---|---|---|---|---|---|---|---|
1 | -121.7 | 38.0 | 7105.0 | 5523.0 | 1088.0 | 5.0 | 0.2 |
2 | -122.4 | 37.8 | 2479.0 | 1816.0 | 496.0 | 3.1 | 0.3 |
3 | -122.0 | 37.0 | 2813.0 | 1337.0 | 477.0 | 3.7 | 0.3 |
4 | -103.5 | 43.8 | 2212.0 | 803.0 | 144.0 | 5.3 | 0.2 |
5 | -117.1 | 32.8 | 2963.0 | 1162.0 | 556.0 | 3.6 | 0.2 |
6 | -118.0 | 33.7 | 3396.0 | 1542.0 | 472.0 | 7.4 | 0.4 |
您能不能指出任何非預期的特徵值?
資料偏移
如果資料中任何偏差,部分群組或特徵可能會根據實際世界的使用率而遭低估或高估,因而對模型造成偏誤。
如已完成驗證程式設計練習,您可能會回想一下,如果將加州的住宅資料集分割成訓練和驗證集,然後再將其拆分為訓練集和驗證集,便是顯而易見的資料偏差;圖 1 以視覺化方式呈現部分資料集,其僅完整呈現加州西北部的完整資料集。
圖 1. 加州州政府的地圖和加州住宅的資料集重疊。每個點都代表一個住宅區塊,顏色從藍色到紅色分別代表相對應的內部價格,範圍從低到高皆然。
如果這個非代表性樣本是透過訓練模型來預測全州的住宅房源價格,則來自加州南部的住房資料將不成問題。在模型中編碼的地理偏誤可能會對未呈現社群的購屋者造成負面影響。