公平性:找出偏誤

準備模型訓練和評估資料時,請務必考量公平性問題,並檢查可能導致偏差的潛在來源,以便在將模型發布至實際環境前,主動減輕其影響。

偏見可能會出現在哪些地方?以下列舉一些資料集中的警訊。

缺少特徵值

如果資料集中有一或多個特徵在大量範例中缺少值,這可能表示資料集中的某些重要特徵未充分呈現。

練習:隨堂測驗

您要訓練模型,根據各種特徵 (包括品種、年齡、體重、性情和每天掉毛的數量) 預測救援狗的領養可能性。您的目標是確保模型在所有類型的狗身上都能發揮同樣良好的效能,無論其外型或行為特徵為何

您發現訓練集的 5,000 個範例中有 1,500 個缺少個性值。下列哪些潛在偏誤來源應進行調查?

某些品種的狗更有可能缺少氣質資料。
如果系統提供的溫度資料與犬種有關,這可能會導致某些狗品種的可領性預測準確度降低。
未滿 12 個月的犬隻體溫資料較可能缺少溫度資料
如果個性資料的可用性與年齡相關,那麼相較於成犬,系統可能會對幼犬做出較不準確的適應性預測。
所有從大城市救出的狗狗都缺少氣質資料。
乍看之下,這可能不會是潛在的偏差來源,因為缺少的資料會對大城市的所有狗隻一視同仁,不論其品種、年齡、體重等。不過,我們仍需考量,狗隻所在地點可能會有效地代表這些物理特徵。舉例來說,如果大城市中的狗比偏遠地區的狗人數明顯小,對偏重犬隻或特定小型犬種的預測準確度就會降低。
資料集中隨機缺少個性資料。
如果個性資料確實是隨機遺漏,那麼這並不會成為潛在的偏差來源。不過,情緒資料可能會隨機遺失,進一步調查可能會揭露差異的原因。因此,請務必徹底檢查,排除其他可能性,而不要假設資料缺口是隨機發生的。

非預期的特徵值

探索資料時,您也應找出含有特徵值的示例,這些值特別不具特徵或不尋常。這些意外的特徵值可能表示資料收集期間發生問題,或其他可能導致偏差的誤差。

練習:檢查您的理解程度

請查看下列虛構的示例,瞭解如何訓練救援狗收養可行性模型。

品種 年齡 (歲) 體重 (磅) 性情 shedding_level
玩具貴賓犬 2 12 excitable
黃金獵犬 7 65 平靜
拉布拉多獵犬 35 73 平靜
法國鬥牛犬 0.5 11 平靜 medium
不明混種犬 4 45 excitable
巴吉度獵犬 9 48 平靜 medium
您能否指出地圖資料有任何問題?
按一下這裡查看答案

資料偏移

資料中若有任何偏差,例如某些群組或特徵的比例可能高於或低於實際發生率,就可能會導致模型出現偏差。

稽核模型成效時,除了查看匯總結果,也請依次要群組細分結果。舉例來說,在救援狗認養模型的情況下,為了確保公平性,單純查看整體準確度是不夠的。我們也應依次群組稽核成效,確保模型在各個犬種、年齡層和體型群組中均有良好表現。

在本單元後續的「評估偏差」部分,我們會進一步探討評估模型的不同方法,並依次評估各個子群組。