公平性:找出偏誤
準備模型訓練和評估資料時,請務必考量公平性問題,並檢查可能導致偏差的潛在來源,以便在將模型發布至實際環境前,主動減輕其影響。
偏見可能會出現在哪些地方?以下列舉一些資料集中的警訊。
缺少特徵值
如果資料集中有一或多個特徵在大量範例中缺少值,這可能表示資料集中的某些重要特徵未充分呈現。
練習:隨堂測驗
您要訓練模型,根據各種特徵 (包括品種、年齡、體重、性情和每天掉毛的數量) 預測救援狗的領養可能性。您的目標是確保模型在所有類型的狗身上都能發揮同樣良好的效能,無論其外型或行為特徵為何
您發現訓練集的 5,000 個範例中有 1,500 個缺少個性值。下列哪些潛在偏誤來源應進行調查?
某些品種的狗更有可能缺少氣質資料。
如果系統提供的溫度資料與犬種有關,這可能會導致某些狗品種的可領性預測準確度降低。
未滿 12 個月的犬隻體溫資料較可能缺少溫度資料
如果個性資料的可用性與年齡相關,那麼相較於成犬,系統可能會對幼犬做出較不準確的適應性預測。
所有從大城市救出的狗狗都缺少氣質資料。
乍看之下,這可能不會是潛在的偏差來源,因為缺少的資料會對大城市的所有狗隻一視同仁,不論其品種、年齡、體重等。不過,我們仍需考量,狗隻所在地點可能會有效地代表這些物理特徵。舉例來說,如果大城市中的狗比偏遠地區的狗人數明顯小,對偏重犬隻或特定小型犬種的預測準確度就會降低。
資料集中隨機缺少個性資料。
如果個性資料確實是隨機遺漏,那麼這並不會成為潛在的偏差來源。不過,情緒資料可能會隨機遺失,進一步調查可能會揭露差異的原因。因此,請務必徹底檢查,排除其他可能性,而不要假設資料缺口是隨機發生的。
非預期的特徵值
探索資料時,您也應找出含有特徵值的示例,這些值特別不具特徵或不尋常。這些意外的特徵值可能表示資料收集期間發生問題,或其他可能導致偏差的誤差。
練習:檢查您的理解程度
請查看下列虛構的示例,瞭解如何訓練救援狗收養可行性模型。
品種 |
年齡 (歲) |
體重 (磅) |
性情 |
shedding_level |
玩具貴賓犬 |
2 |
12 |
excitable |
低 |
黃金獵犬 |
7 |
65 |
平靜 |
高 |
拉布拉多獵犬 |
35 |
73 |
平靜 |
高 |
法國鬥牛犬 |
0.5 |
11 |
平靜 |
medium |
不明混種犬 |
4 |
45 |
excitable |
高 |
巴吉度獵犬 |
9 |
48 |
平靜 |
medium |
您能否指出地圖資料有任何問題?
按一下這裡查看答案
品種 |
年齡 (歲) |
體重 (磅) |
性情 |
shedding_level |
玩具貴賓犬 |
2 |
12 |
excitable |
低 |
黃金獵犬 |
7 |
65 |
平靜 |
高 |
拉布拉多獵犬 |
35 |
73 |
平靜 |
高 |
法國鬥牛犬 |
0.5 |
11 |
平靜 |
medium |
不明混種犬 |
4 |
45 |
excitable |
高 |
巴吉度獵犬 |
9 |
48 |
平靜 |
medium |
根據 金氏世界紀錄的認證,最長壽的狗是 Bluey,牠是一隻澳洲牧牛犬,活到 29 歲 5 個月。因此,拉布拉多獵犬實際上是 35 歲的說法似乎不太可能,更有可能的是狗的年齡計算或記錄有誤 (也許狗實際上是 3.5 歲)。這個錯誤也可能表示資料集中年齡資料有更廣泛的準確度問題,需要進一步調查。
資料偏移
資料中若有任何偏差,例如某些群組或特徵的比例可能高於或低於實際發生率,就可能會導致模型出現偏差。
稽核模型成效時,除了查看匯總結果,也請依次要群組細分結果。舉例來說,在救援狗認養模型的情況下,為了確保公平性,單純查看整體準確度是不夠的。我們也應依次群組稽核成效,確保模型在各個犬種、年齡層和體型群組中均有良好表現。
在本單元後續的「評估偏差」部分,我們會進一步探討評估模型的不同方法,並依次評估各個子群組。
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2024-11-10 (世界標準時間)。
[null,null,["上次更新時間:2024-11-10 (世界標準時間)。"],[[["Training data should represent real-world prevalence to avoid bias in machine learning models."],["Missing or unexpected feature values in the dataset can be indicative of potential sources of bias."],["Data skew, where certain groups are under- or over-represented, can introduce bias and should be addressed."],["Evaluating model performance by subgroup ensures fairness and equal performance across different characteristics."],["Auditing for bias requires a thorough review of data and model outcomes to mitigate potential negative impacts."]]],[]]