一旦在訓練資料中找出偏誤來源,我們就能採取主動措施,減輕其影響。機器學習 (ML) 工程師通常會採用兩種主要策略來修正偏差:
- 擴增訓練資料。
- 調整模型的損失函式。
擴增訓練資料
如果訓練資料稽核作業發現缺少、錯誤或偏差的資料,最直接的解決方法通常是收集其他資料。
不過,雖然增加訓練資料是理想做法,但缺點是,由於缺乏可用資料或資源受限,因此可能無法收集資料。例如,收集更多資料可能會耗費高成本或耗時,或是因法律/隱私權限製而不可行。
調整模型的最佳化函式
如果無法收集額外的訓練資料,另一種減少偏誤的方法就是調整模型訓練期間計算損失的方式。我們通常會使用 對數損失 等最佳化函式,對錯誤的模型預測進行處罰。但是,記錄遺失並不會將子群組成員納入考量。因此,我們可以選擇最佳化函式,以公平性的方式懲罰錯誤,以抵銷訓練資料中發現的不平衡之處,而不使用記錄遺失。
TensorFlow Model Remediation 程式庫提供公用程式,可在模型訓練期間套用兩種不同的偏誤緩解技術:
MinDiff:MinDiff 會針對兩個群組的預測分布情形差異,加入懲罰機制,藉此平衡兩個不同資料切片 (男/女學生與非二元性別學生) 的錯誤。
反事實 Logit 配對:反事實 Logit 配對 (CLP) 旨在確保變更特定範例的敏感屬性不會影響模型對該範例的預測結果。舉例來說,如果訓練資料集包含兩個特徵值完全相同的範例,但其中一個的
gender
值為male
,另一個的gender
值為nonbinary
,CLP 就會在這兩個範例的預測結果不同時加上懲罰。
您選擇用來調整最佳化函式的技巧,取決於模型的用途。在下一節中,我們將進一步探討如何評估模型的公平性,並考量這些用途。