機器學習詞彙表:公平性

本頁麵包含公平性詞彙詞彙。如需所有詞彙詞彙,請按這裡

A

屬性

#fairness

功能的同義詞。

在機器學習的公平性中,屬性通常是指與個人相關的特性。

自動化偏誤

#fairness

當自動化決策者透過自動化決策系統提供資訊,即使自動化決策系統出錯,他們仍會偏好進行自動化決策。

B

偏誤 (倫理/公平)

#fairness
#fundamentals

1. 針對某些內容、人物或群體採取歧視、偏見或好評。這些偏誤可能會影響資料的收集與解讀、系統設計,以及使用者與系統互動的方式。這類偏誤形式包括:

2. 取樣或回報程序發生系統性錯誤。 這類偏誤形式包括:

不要和機器學習模型或預測偏誤偏誤不同。

C

確認自訂調整

#fairness

建議您在搜尋、解讀、喜歡和記住資訊時,確認使用者已是現有的預設信仰或假設。機器學習開發人員可能會不小心收集或為資料加上標籤,這會影響了目前的看法。確認偏誤是一種隱含偏見

實驗偏誤是一種確認偏誤,實驗在繼續確認假設之前,模型會繼續訓練模型。

反公平公平性

#fairness
「公平性指標」會檢查分類器是否針對與個人相同的第一個結果產生相同的結果,除了一或多個一或多個「敏感屬性」除外。評估反公平公平性時,分類器是找出模型中偏誤來源的一種方法。

請參閱「How Worlds Collide: Integating different Counterfactualsumptionsumption in Fairness」一文,進一步瞭解反公平原則。

涵蓋率偏誤

#fairness

請參閱選擇偏誤

D

客層一致性

#fairness

公平性指標:如果模型的分類結果不符合指定的機密屬性,則為適合的品質指標

舉例來說,如果 Lilliputians 和 Brobdingnagians 同時適用於 Glubbdubdrib University,則無論 Lilliputians 的接受百分比是否與許可的兄弟姊妹相比,無論公認的平均值是否高於其他平均值,只要達到的作答者百分比是一樣的,可將人口比較性視為一致性。

等於的奇數平等機會相比,允許分類結果匯總至依據敏感屬性,但不允許特定指定真值標籤的分類結果依附於敏感屬性。請參閱「使用更聰明的機器學習防範攻擊」,透過視覺化方式瞭解在針對客層特性進行最佳化調整時能權衡取捨。

差異的影響

#fairness

針對影響不同客群的子群組做出明智決定。這通常表示演算法的決策過程傷害或比部分子群組更多。

舉例來說,假設演算法會判定 Lilliputian 適用的迷你住宅貸款資格,如果其郵寄地址是特定郵遞區號,就比較有可能將兩者歸類為「不符合資格」。如果 Bi-Endian Lilliputian 偏向郵政地址較小的郵遞區號,那麼這樣的演算法可能會產生差異。

偏離實驗組相牴觸,在子宮的決策中,由於子群組特性是明確輸入的演算法,

分心治療

#fairness

將主體的機密屬性納入演算法決策過程,以便以不同的方式處理人員群組。

舉例來說,假設演算法是根據自家貸款申請中取得的資料,判斷 Lilliputians 是否符合申請小型住宅貸款的資格。如果演算法使用 Lilliputian 的聯盟做為 Big-Endian 或 Little-Endian 做為輸入值,就會對該維度執行差異化處理。

差異影響會著重於子群組對演算法的社會影響,不論子群組是否輸入模型,都不會影響到差異。

E

機會平等

#fairness
「公平性指標」會檢查應選用偏好的標籤 (前者會帶來效益或利於使用者) 以及指定的屬性,分類器會預測該屬性值對該屬性的所有值都同樣享有良好成效。換句話說,無論機會是否來自群組成員,商機的評估方式都應決定任一機會是否符合使用資格的可能性。

舉例來說,假設 Glubbdubdrib University 允許利利浦斯與盧布林納吉人同時參加嚴謹的數學計劃。lliputians 中學的版學校提供強大的數學課程,大部分學生都符合大學計畫的申請資格。 不討論數學課的數學學校本身也未提供數學課程,因此很少學生參與。若合格學生符合獲得公信或賄賂的精神,無論其遵守的是國籍 (lilliputian 或 Brabdingnagian),都有機會獲得「潛在客戶」偏好的標籤。

舉例來說,假設 100 Lilliputians 和 100 布羅地納吉斯同時適用於 Glubbdubdrib University,申請入學任務如下:

表 1. 盧比申請人 (90% 符合資格)

  晉級 不合格
已允許 45 3
已拒絕 45 7
總計 90 10
合格學生百分比:45/90 = 50%
不符資格的學生百分比:7/10 = 70%
入學學生百分比:45+3)/100 = 48%

 

表 2. 破產申請人 (10% 符合資格):

  晉級 不合格
已允許 5 9
已拒絕 5 81
總計 10 90
合格學生百分比:5/10 = 50%
不符資格的學生百分比:81/90 = 90%
已接教職員的學生總百分比 (5+9)/100 = 14%

上述範例符合接受合格學生的入職機會,因為合格的 Lilliputian 和 Robdingnagians 都有機會獲得 50% 的認可。

請參閱「平等學習機會的公平性」一文,進一步瞭解商機平等相關討論。另請參閱「使用更聰明的機器學習對抗論」,透過視覺化方式瞭解在機會平等方面發揮效益的取捨。

等化器

#fairness
「公平性指標」會檢查任何特定標籤和屬性,分類器是否可準確預測該屬性的所有值。

例如,假設 Glubbdubdrib University 允許黎巴嫩和布爾丁納吉徒穿戴嚴謹的數學計劃。利比亞的高中、提供 數學課程的穩固課程,大部分學生都符合大學計畫的申請資格。不對外課的數學學校根本沒有提供數學課程,因此很少學生參與。如果缺乏申請資格,無論申請人是 Lilliputian 或兄弟姊妹,只要符合申請資格,也都對於加入計畫擁有同等機會,即使符合資格,也同樣遭拒。

假設有 100 位 Lilliputians 和 100 布羅寧那維斯同時適用於 Glubbdubdrib 大學,且申請判決如下:

表 3. 盧比申請人 (90% 符合資格)

  晉級 不合格
已允許 45 2
已拒絕 45 8
總計 90 10
合格學生百分比:45/90 = 50%
不符資格的學生百分比:8/10 = 80%
入學學生百分比:45+2)/100 = 47%

 

表 4. 破產申請人 (10% 符合資格):

  晉級 不合格
已允許 5 18
已拒絕 5 72
總計 10 90
合格學生百分比:5/10 = 50%
不符資格的學生百分比:72/90 = 80%
縮寫的學生授權百分比 (5+18)/100 = 23%

符合資格的 Lilliputian 和 Robdingnagian 學生有 50% 的投保機會,以及不合資格的 Lilliputian 和 Brabdingnagian 皆有 80% 的參加機會遭到拒絕,成效不彰。

「奇特表情」在「平等學習機會的平等」中完整定義了,「預測者 ∫FE 符合 根據 dFE 和 A 對受保護 Y 的結果,與 Y 的結果無關。」

實驗偏誤

#fairness

請參閱確認偏誤

F

公平性限制

#fairness
對演算法套用限制,確保符合一或多個公平性定義。公平性限制的例子包括:

公平性指標

#fairness

可量化的「公平性」定義。 一些常用的公平性指標包括:

許多公平指標相互互斥,請參閱「公平性指標不相容」。

G

群組歸因自訂調整

#fairness

假設個別某人的 true 狀況也同樣等於。如果使用便利取樣進行資料收集,群組歸因偏誤會產生負面影響。在非具代表性的範例中,歸因可能未反映實際情況。

另請參閱外群組興趣偏誤群組內偏誤

I

隱含偏誤

#fairness

自動根據他人的心理模型和記憶製作關聯或假設。隱含偏誤可能會影響下列項目:

  • 資料的收集和分類方式。
  • 機器學習系統的設計與開發方式。

舉例來說,在建立分類器來辨識婚禮相片時,工程師可能會使用相片中的白洋裝做為功能。然而,只有在特定時代和某些文化活動時,白色洋裝才是客製化品。

另請參閱確認偏誤

公平性指標不相容

#fairness

公平與否的論點會互不相容,無法同時滿足兩個條件。因此,沒有一種通用的指標可以用於量化公平性,並適用於所有機器學習問題。

雖然這聽起來有些令人失望,但可信的公平性指標並不意味著公平性需要。而是建議特定機器學習問題的公平性定義,目標是避免特定用途的傷害。

如要進一步瞭解這個主題,請參閱「(不可能的公平性)」。

個人公平性

#fairness

公平性指標,用於檢查類似使用者的分類是否也相近。舉例來說,Brabdingnagian Academy 希望確保兩名學生具有相同的成績和標準考試成績,能獲得同等的公平性回應。

請注意,公平性完全取決於如何定義「相似度」(例如:評分和測試分數);如果相似度指標遺漏了重要資訊 (例如學生課程的嚴格性),您可能會面臨新的公平性問題。

如要進一步詳細瞭解個別公平性,請參閱「透過知名度」概念

群組內偏誤

#fairness

顯示部分內容對所屬群組或群體的部分內容。如果測試人員或評分者包含機器學習開發人員的好友、家人或同事,則群組內偏誤可能會使產品測試或資料集失效。

群組內偏誤是一種群組歸因偏誤。另請參閱團體群組偏誤

N

無回應偏誤

#fairness

請參閱選擇偏誤

O

團體偏頭偏誤

#fairness

比較態度、值、人格特質和其他特性時,將群組成員加入群組的機率會高於群組成員。「群組內」是指您與經常互動的使用者;「群組外」是指您不常互動的對象。如果您要求他人提供他們所屬群組以外的屬性,那麼建立這些資料集時,這些屬性可能較不明顯,且與觸及群組中的使用者清單相比,這些類型可能更複雜。

舉例來說,Lilliputians 可能會在細緻的細緻環境中描述了其他利利比亞的房屋,相近的建築風格、窗戶、門窗與體積還是有點微差異。不過,相同的 Lilliputian 可能只是宣告布洛根納吉斯人居住在同一個住宅。

群組同形偏誤是一種群組歸因自訂調整

另請參閱群組內偏誤

P

參與偏誤

#fairness

非回應偏誤的同義詞。請參閱選擇偏誤

後續處理

#fairness
#fundamentals

在模型執行「之後」調整模型的輸出內容。處理後可以使用強制執行公平性限制,而不必自行修改模型。

舉例來說,其中一個屬性可以設定該屬性所有值的真陽性,藉此維持某些屬性的後續處理二進位檔,

預測一致性

#fairness

公平性指標:用於檢查特定分類器的精確度費率是否等於考慮的子群組。

舉例來說,如果大學接受的校驗率和 Libinaian 及布羅納西亞人皆相同,預測模型接受度預測的模型即可符合公國的預測一致性。

預測一致性有時也稱為「預測費率一致性」

如要進一步查看預測性差異的討論,請參閱「Fairness 定義」(第 3.2.1 節)。

預測費率

#fairness

預測一致性」的另一個名稱。

預先處理

#fairness
先處理資料,再用來訓練模型預先處理可以像移除英文字典沒有英文的英文語料庫中字詞,或是按照與機密屬性盡可能消除許多相關屬性的複雜度,輕鬆進行預先處理。預先處理可協助符合公平性限制

Proxy (敏感屬性)

#fairness
做為機密屬性的獨立屬性。例如,個人的郵遞區號可能會用來當做收入、種族或族裔的 Proxy。

(右)

報告偏誤

#fairness

使用者撰寫動作、結果或屬性的頻率,無法反映其實際頻率或屬性的特性是某個個人的特性。報表偏誤會影響機器學習系統學習的資料組合。

例如,在書籍中,「笑聲」一詞的不只是「布林」。這個機器學習模型可預測書籍語料中呼吸和呼吸的相對頻率,因此可能會判斷使用「呼吸」比「呼吸」更常發生。

取樣偏誤

#fairness

請參閱選擇偏誤

選擇偏誤

#fairness

由於特定選取程序會導致系統產生資料樣本與觀察到的樣本之間有系統差異,因此造成取樣的資料產生錯誤。可用的選擇偏誤如下:

  • 涵蓋率偏誤:資料集中顯示的人口與機器學習模型進行預測的人口不符。
  • 取樣偏誤:系統不會從目標群組隨機收集資料。
  • 非回應偏誤 (也稱為「參與偏誤」):特定客群的問卷調查費率與其他群組使用者的問卷調查費率不同。

舉例來說,假設您建立的機器學習模型可預測使用者對電影的享受,為了收集訓練資料,您需要向電影電影院在前座的電影院對觀眾進行問卷調查。反而,這也許像是收集資料集的合理方式;然而,這種資料收集形式可能會產生下列幾種選擇偏誤:

  • 涵蓋率偏誤:在選擇收看電影的人口中,模型的預測結果無法對尚未對電影感興趣的使用者進行一般分析。
  • 取樣偏誤:不會像預期人口 (所有電影中的所有人) 隨機取樣,而是只對第一列的人進行取樣。相較於其他資料列中的人,位於前一列的使用者對電影較感興趣。
  • 沒有回應偏誤:一般而言,具有強烈意見的人通常會比沒有中立意圖的人回應選擇性問卷調查。由於電影問卷調查是選擇性的,因此回應通常會以標準分佈的方式比一般 (鈴鐺) 分佈。

機密屬性

#fairness
為基於法律、倫理、社會或個人因素而特別的人類屬性。

U

不瞭解 (屬於敏感屬性)

#fairness

出現機密屬性,但訓練資料不包含。由於敏感屬性通常會與某項資料的其他屬性建立關聯,因此以非敏感屬性訓練而成的模型仍可能受到該屬性產生的影響,或是違反其他公平性限制