公平性:偏誤類型

機器學習模型並非固有的目標。工程師將訓練資料集集提供給使用者,藉此訓練模型,而人類在佈建和收錄資料時涉及人類,會導致模型出現偏誤。

建構模型時,務必注意可在資料中常見的常見偏誤,因此您可以主動採取步驟來緩解這些效果的影響。

回報偏誤

如果資料集擷取的事件、屬性和/或結果頻率未準確反映實際實際頻率,就會發生報表偏誤。此偏誤可能存在,因為人們往往專注於記錄異常或不尋常的情境,假設這個日常點讓人「沒有」的意思。

自動化偏誤

「自動化偏誤」通常會優先採用自動化系統產生的結果,而非由非自動化系統產生的結果。

選擇偏見

選擇資料集偏誤時,如果資料集的來源範例未反映實際運作情形,就會發生「選取偏誤」。選擇偏誤可透過許多不同形式:

  • 涵蓋率偏誤:資料未以代表性方式選取。
  • 無回應偏誤 (或參與偏誤):資料在資料收集過程中因參與資料缺口而最終未代表。
  • 取樣偏誤:在資料收集期間不會使用正確的隨機化程序。

群組歸因偏誤

「群組歸因偏誤」是將個人實際情況歸因給其所屬整個群組的必要性,此偏誤的兩項主要資訊清單為:

  • 群組內偏誤:針對不屬於您的群組成員或您同時具有共同特徵的偏好設定,
  • 群組外同質性偏誤:對某個群組中的個別成員進行刻板印象,而非不屬於特定群組,或是查看這些特徵的特性更為統一。

隱式偏誤

「隱含偏誤」是依據自身的心理模型及個人體驗做出的假設,而這些特徵的適用範圍通常較少。

常見的隱含偏誤是確認偏誤,其中模型建構工具會以隱瞞存在現有信念和假設的方式來處理資料。在某些情況下,模型建構工具實際上可能會繼續訓練模型,直到產生與原始假設一致的結果;這個結果稱為實驗者偏誤