公平性:偏誤的類型

機器學習 (ML) 模型本身並非客觀的。機器學習專家會將訓練範例資料集提供給模型進行訓練,而人為提供和策劃這類資料,可能會導致模型的預測結果出現偏差。

建構模型時,請務必瞭解資料中可能遭到竄改的常見人類偏誤,以便您主動採取相關步驟來減輕影響程度。

回報偏誤

歷史偏誤

自動化偏誤

選擇偏誤

如果選擇的資料集範例無法反映實際分佈情形,就會產生選擇偏誤。選擇偏誤的形式很多,包括涵蓋偏誤、非回應偏誤和抽樣偏誤。

涵蓋偏誤

無回應偏誤

取樣偏誤

團體歸因偏誤

團體歸因偏誤是指傾向將個人的特質放大到整個所屬團體。團體歸因偏誤通常出現在下列兩種形式中。

內團體偏誤

外團體同質性偏誤

隱性偏誤

確認偏誤

實驗者偏誤

練習:隨堂測驗

前言中所述的大學入學模型中,下列哪種偏誤可能導致預測結果偏離?
歷史偏差
招生模型是以過去 20 年來的學生記錄訓練而成。如果少數族裔學生在這些資料中代表性不足,模型在預測新學生資料時,可能會重現相同的歷史不公平現象。
內團體偏誤
招生模型是由現任大學生訓練,而他們可能會無意識地偏好錄取與自己背景相似的學生,這可能會影響他們如何收集或特徵工程化模型訓練資料。
確認偏誤
招生模型是由現任大學學生訓練而成,而他們可能先前就認為,哪些類型的資格與電腦科學課程的成功有關。他們可能不小心收集或特徵化資料,導致模型認定這些現有信念。
自動化偏誤
自動化偏誤可能會導致招生委員會選擇使用 ML 模型來做出招生決策;他們可能認為自動化系統比人類做出的決策更能產生更好的結果。不過,自動化偏誤並不會提供任何洞察資料,無法說明模型預測結果為何偏離。