公平性:找出偏誤

當您準備用於模型訓練和評估的資料時,請務必 考量公平性問題並稽核可能 偏誤,也就是 並主動減輕影響,再將模型發布到正式環境。

哪裡可能有偏見?以下是您在資料集中應留意的紅色旗標。

缺少特徵值

如果資料集有一或多個特徵,且該特徵缺少某個大型特徵的值 或許是特定主要特徵的樣本 資料集的代表性不足

練習:隨堂測驗

您想要訓練模型來預測救援犬的可否率 在各種功能當中,包括品種、年齡、體重、體溫 以及每天的毛皮數量您的目標是確保模型 無論狗的身體為何,各種狗狗的表現都一樣好 行為特徵

這個訓練集的 5,000 個範例中有 1,500 個 缺少隨機性參數下列何者是可能的來源 你應該調查的偏誤?

某些品種的體溫資料較可能缺少溫度資料 狗
如果溫度資料是否與狗品種有關 這麼做可能會導致系統對 特定狗的品種
未滿 12 歲的狗狗更有可能缺少體溫資料 個月數
如果溫度資料是否與年齡相關: 這可能會導致 小狗還是成人狗
大城市中獲救的所有狗狗均缺少體溫資料。
乍看之下,這可能不是來源 不然,缺少的資料會影響到 城市,不受品種、年齡、體重等因素影響。 但我們還是需要考量狗的所在位置 能有效做為這些實體 舉例來說,如果來自大城市的狗 機率明顯高於鄉村地區狗狗的機率 導致採用率預測準確度降低 專為低階犬或特定小狗品種而設計
資料集內隨機缺少溫度資料。
如果體溫資料確實會隨機消失,那麼 都可能是潛在偏見不過,也有可能採用 資料似乎隨機遺失,但進一步調查 可能會顯示差異說明因此請務必 自行檢查並排除其他可能性 會假設資料落差是隨機的

非預期的特徵值

探索資料時,請一併尋找包含特徵值的範例 特別沒有特徵或異常這些未預期的功能 可能代表在資料收集或其他環節發生問題 可能引發偏誤的不準確

練習:隨堂測驗

請查看下列關於訓練救援犬的假設範例 採用率

品種 年齡 (年) 體重 (磅) 性情 shedding_level
玩具貴賓犬 2 12 興奮
黃金獵犬 7 65 平靜
拉布拉多獵犬 35 73 平靜
法國鬥牛犬 0.5 11 平靜 媒介
混合品種不明 4 45 興奮
巴吉度獵犬 9 48 平靜 媒介
您是否找出地圖項目資料是否有任何問題?
按一下這裡查看解答

資料偏移

資料出現任何偏差問題,某些群組或特性可能是 相對地,比起現實世界市場 在您的模型中納入偏誤

稽核模型成效時,除了查看 ,不過為了按子群組細分結果。舉例來說 為確保公平性,我們決定 只要評估整體準確率我們也應該按子群組稽核成效 確保模型針對每個犬種、年齡層 大小群組。

在本單元的後續部分,我們會在「評估偏誤」部分 深入瞭解各種依據子群組評估模型的方法。