머신러닝 용어집: 공정성

이 페이지에는 공정성 용어집 용어가 포함되어 있습니다. 모든 용어집 용어를 보려면 여기를 클릭하세요.

A

속성

#fairness

기능의 동의어입니다.

머신러닝 공정성에서 속성은 종종 개인과 관련된 특성을 나타냅니다.

자동화 편향

#fairness

의사 결정권자가 자동화된 의사결정 시스템에 오류가 있더라도 자동화 없이 생성된 정보보다 자동화된 의사결정 시스템이 제공하는 권장사항을 선호하는 경우입니다.

B

편향 (윤리/공정성)

#fairness
#fundamentals

1. 어떤 사물, 사람 또는 집단에 대한 정형화, 편견 또는 편애를 말합니다. 이러한 편향은 데이터 수집 및 해석, 시스템 설계, 사용자가 시스템과 상호작용하는 방식에 영향을 미칠 수 있습니다. 이러한 유형의 편향의 형태는 다음과 같습니다.

2. 샘플링 또는 보고 절차로 인해 발생하는 계통 오차입니다. 이러한 유형의 편향의 형태는 다음과 같습니다.

머신러닝 모델의 바이어스 항 또는 예측 편향과 혼동하지 마시기 바랍니다.

C

확증 편향

#fairness

기존의 믿음이나 가설을 확신하는 방식으로 정보를 검색, 해석, 선호, 기억하는 경향입니다. 머신러닝 개발자가 자신의 기존 신념을 뒷받침하는 결과에 영향을 미치는 방식으로 의도치 않게 데이터를 수집하거나 라벨을 지정할 수 있습니다. 확증 편향은 내재적 편향의 한 형태입니다.

실험자 편향은 기존 가설이 확인될 때까지 실험자가 모델 학습을 계속하는 일종의 확증 편향입니다.

반사실적 공정성

#fairness

분류기가 한 개인에 관해서와 동일한 결과를 생성하는 다른 개인과 동일한 결과를 생성하는지 확인하는 공정성 측정항목입니다. 단, 하나 이상의 민감한 속성은 예외입니다. 분류기에 반사실적인 공정성을 평가하는 것은 모델에서 편향의 잠재적 원인을 찾아내기 위한 한 가지 방법입니다.

반사실적 공정성에 관한 자세한 내용은 '세계가 충돌할 때: 다양한 반사실적 가정을 공정성으로 통합하기'를 참고하세요.

포함 편향

#fairness

표본 선택 편향을 참고하세요.

D

인구통계학적 동등성

#fairness

모델 분류 결과가 지정된 민감한 속성에 종속되지 않는 경우 충족되는 공정성 측정항목입니다.

예를 들어 난쟁이와 브로브딩나기인 모두 글루브더브드리브 대학교에 지원한 경우 한 그룹이 평균적으로 다른 그룹보다 적격한지에 관계없이 입학 합격자의 비율이 브로브딩나기인의 비율과 동일하면 인구통계 동등성이 달성됩니다.

등분 확률기회의 균등과 대비되는 이 방식은 집계 결과를 집계하여 민감한 속성에 의존하도록 허용하지만 지정된 특정 정답 라벨의 분류 결과가 민감한 속성에 종속되도록 허용하지는 않습니다. 인구통계 동등성에 맞게 최적화할 때의 절충사항을 살펴보는 시각화는 '더 스마트한 머신러닝으로 차별하기'를 참고하세요.

이질적인 영향

#fairness

서로 다른 모집단 하위 그룹에 불균형적으로 영향을 미치는 사람에 대한 의사 결정 일반적으로 알고리즘에 기반한 의사 결정 프로세스가 일부 하위 그룹에 다른 하위 그룹보다 더 해롭거나 이득이 되는 상황을 나타냅니다.

예를 들어 Lilliputian의 미니어처 주택 담보 대출 자격을 결정하는 알고리즘이 우편 주소에 특정 우편번호가 포함된 경우 '부적격'으로 분류할 가능성이 높다고 가정해 보겠습니다. Big Endian Lilliputians가 Little Endian Lilliputians보다 이 우편번호를 사용하는 우편 주소를 가질 가능성이 더 높다면 이 알고리즘은 서로 다른 영향을 미칠 수 있습니다.

하위 그룹 특성이 알고리즘 의사결정 프로세스에 대한 명시적 입력일 때 발생하는 불일치에 초점을 맞춘 이상 처리와 대조됩니다.

이질적 대우

#fairness

서로 다른 하위 그룹을 다르게 취급하도록 대상의 민감한 속성을 알고리즘 의사결정 프로세스로 분해합니다.

예를 들어 대출 신청서에 제공된 데이터를 기반으로 Lilliputians의 미니어처 주택 대출 자격을 결정하는 알고리즘을 생각해 보겠습니다. 알고리즘이 Lilliputian의 제휴 관계를 Big Endian 또는 Little Endian으로 입력한다면 이는 해당 차원에 대해 서로 다른 처리를 시행하는 것입니다.

하위 그룹이 모델의 입력인지 여부와 관계없이 하위 그룹에 대한 알고리즘 결정이 사회적으로 미치는 영향의 불균형에 초점을 맞추는 상이한 영향과 대조됩니다.

E

기회의 균등

#fairness

모델이 민감한 속성의 모든 값에 대해 바람직한 결과를 똑같이 잘 예측하고 있는지 평가하는 공정성 측정항목입니다. 즉, 모델에서 바람직한 결과가 포지티브 클래스라면 목표는 모든 그룹에서 참양성률을 동일하게 유지하는 것입니다.

기회의 균등은 균등한 확률과 관련이 있습니다. 즉, 참양성률과 거짓양성률모두 모든 그룹에 대해 동일해야 합니다.

글루브덥브립 대학교에서 난쟁이족과 브로브딩나기인을 모두 엄격한 수학 프로그램에 재학한다고 가정해 보겠습니다. Lilliputians의 중등학교는 탄탄한 수학 수업 커리큘럼을 제공하며 대다수의 학생이 대학 프로그램의 자격 요건을 갖추고 있습니다. 브로브딩나기인의 중고등학교는 전혀 수학 수업을 제공하지 않기 때문에 학력을 소지한 학생의 수가 훨씬 적습니다. 자격을 갖춘 학생들이 일류인인지 브로브딩나지안인지에 상관없이 입학이 가능한 경우 국적에 관해 선호되는 라벨인 '인정됨'에 대해 기회의 균등이 충족됩니다.

예를 들어 100명의 난쟁이와 100명의 브로브딩나기안이 글루브덥브드립 대학에 지원하는데 입학이 다음과 같이 결정된다고 가정해 보겠습니다.

표 1. 난민 신청자 (90% 가 적격)

  적격성 확인됨 자격 없음
수락함 45 3
거절됨 45 7
총계 90 10
합격한 학생 비율: 45/90 = 50%
자격 미충족 학생 비율: 7/10 = 70%
합격한 나일루스 출신 총생 비율: (45+3)/100 = 48%

 

표 2. 브로드딩나기 신청자 (10% 자격요건 충족):

  적격성 확인됨 자격 없음
수락함 5 9
거절됨 5 81
총계 10 90
합격한 학생 비율: 5/10 = 50%
부적격 학생 비율: 81/90 = 90%
합격한 브로브딩나그의 총 학생 비율: (5+9)/100 = 14%

자격이 있는 난쟁이와 브로브딩나기인 모두 합격 확률이 50% 이므로 앞의 예는 자격을 갖춘 학생을 수용할 수 있는 기회의 균등을 충족합니다.

기회의 균등은 충족되지만 다음 두 공정성 측정항목은 충족되지 않습니다.

  • 인구 평등: 난쟁이와 브로브딩나기인의 진학 비율이 서로 다릅니다. 난쟁이 학생의 48% 는 합격하지만 브로빙나기 학생 중 14% 만 합격했습니다.
  • 동등한 확률: 자격을 갖춘 나딘과 브로브딩나지안 학생 모두 입학 확률이 같지만 자격이 없는 난쟁이와 브로브딩나기인 모두 거절될 확률이 동일하다는 추가적인 제약은 충족되지 않습니다. 자격이 없는 난쟁이족의 거부율은 70% 인 반면 부적격한 브로브딩나기인의 거부율은 90% 입니다.

기회의 균등에 대한 자세한 내용은 '지도 학습에서의 기회의 균등'을 참조하세요. 또한 기회의 평등을 위해 최적화할 때의 절충사항을 살펴보는 시각화는 '더 스마트한 머신러닝으로 차별하기'를 참조하세요.

등호 확률

#fairness

모델이 한 클래스만 또는 다른 클래스만 배타적으로 사용하는 것이 아니라 포지티브 클래스네거티브 클래스를 모두 고려하여 민감한 속성의 모든 값에 대해 결과를 똑같이 잘 예측하는지 여부를 평가하는 공정성 측정항목입니다. 즉, 모든 그룹에서 참양성률거짓음성률이 동일해야 합니다.

균등화된 확률은 단일 클래스 (양수 또는 음수)의 오류율에만 초점을 맞추는 기회의 균등과 관련이 있습니다.

예를 들어 글루브더브드리브 대학교에서 난독교인과 브로딩나기인을 모두 엄격한 수학 프로그램에 재학한다고 가정해 보겠습니다. Lilliputians의 중등학교는 강력한 수학 수업 커리큘럼을 제공하며 대다수의 학생이 대학 프로그램의 자격 요건을 충족합니다. 브로브딩나기인의 중학교에서는 전혀 수학 수업을 하지 않기 때문에 학업을 공부하는 학생이 훨씬 적습니다. 신청자가 난민인지 브로브딩나지안인지 여부와 관계없이, 자격을 갖춘 경우 프로그램에 참여할 가능성과 자격이 없는 경우에도 거부될 가능성과 동등한 수준으로 균등한 승산이 충족됩니다.

100명의 난쟁이와 100명의 브로브딩나기안이 글루브덥브립 대학교에 지원했으며 입학 결정은 다음과 같이 내려진다고 가정해 보겠습니다.

표 3. 난민 신청자 (90% 가 적격)

  적격성 확인됨 자격 없음
수락함 45 2
거절됨 45 8
총계 90 10
합격한 학생 비율: 45/90 = 50%
자격 미충족 학생 비율: 8/10 = 80%
총 합격생 비율: (45+2)/100 = 47%

 

표 4. 브로드딩나기 신청자 (10% 자격요건 충족):

  적격성 확인됨 자격 없음
수락함 5 18
거절됨 5 72시간
총계 10 90
합격한 학생의 비율: 5/10 = 50%
부적격 학생 비율: 72/90 = 80%
합격한 브로브딩나그의 총 학생 비율: (5+18)/100 = 23%

자격을 갖춘 릴리푸치인과 브로브딩나기인 학생 모두 입학 확률이 50% 이고 자격이 없는 릴리푸티아와 브로브딩나기인은 거절될 확률이 80% 이므로 균등한 확률은 만족스럽습니다.

균등화된 확률은 공식적으로 '감독 학습에서의 기회의 균등'에서 다음과 같이 정의됩니다. '예측자 EXT가 보호된 속성 A와 결과 Y에 대해 균등한 확률을 충족한다. 이는 A와 A가 독립적이며 Y를 조건으로 하는 경우.'

실험자 편향

#fairness

확증 편향을 참조하세요.

F

공정성 제약 조건

#fairness
하나 이상의 공정성 정의가 충족되도록 알고리즘에 제약 조건을 적용합니다. 공정성 제약조건의 예는 다음과 같습니다.

공정성 측정항목

#fairness

측정 가능한 '공정성'의 수학적 정의입니다. 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.

많은 공정성 측정항목은 상호 배타적입니다. 공정성 측정항목의 비호환성을 참조하세요.

G

그룹 귀인 편향

#fairness

개인의 진실이 해당 그룹의 모든 사람에게도 참이라고 가정합니다. 데이터 수집을 위해 간편 샘플링을 사용하면 그룹 귀인 편향의 영향이 악화될 수 있습니다. 대표성이 없는 샘플에서는 현실을 반영하지 않는 기여 분석을 만들 수 있습니다.

외부 집단 동질화 편향내집단 편향을 참고하세요.

H

과거 편향

#fairness

세상에 이미 존재하고 데이터 세트에 적용된 일종의 편향입니다. 이러한 편향은 기존의 문화적 고정 관념, 인구통계학적 불평등, 특정 사회 집단에 대한 편견을 반영하는 경향이 있습니다.

예를 들어 대출 신청자가 대출을 상환할지 여부를 예측하는 분류 모델을 살펴보겠습니다. 이 모델은 서로 다른 두 커뮤니티에 있는 1980년대 현지 은행의 과거 대출 상환 데이터를 바탕으로 학습되었습니다. 커뮤니티 A의 이전 신청자가 커뮤니티 B의 신청자보다 대출을 상환할 가능성이 6배 더 높다면 모델은 과거 편향을 학습하여 해당 커뮤니티의 더 높은 상환 금리를 초래했던 과거 조건이 더 이상 관련이 없는 경우에도 커뮤니티 A의 대출을 승인할 가능성이 낮아질 수 있습니다.

I

내재적 편향

#fairness

자신의 사고 모델과 기억을 기반으로 자동으로 연관 짓거나 가정을 만듭니다. 내재적 편향은 다음에 영향을 줄 수 있습니다.

  • 데이터 수집 및 분류 방법
  • 머신러닝 시스템 설계 및 개발 방법

예를 들어 결혼 사진을 식별하는 분류기를 만들 때 엔지니어는 사진에 있는 흰색 드레스를 특성으로 사용할 수 있습니다. 하지만 흰색 드레스는 특정 시대와 특정 문화에서만 관례적으로 사용되었습니다.

확증 편향을 참조하세요.

공정성 측정항목의 비호환성

#fairness

일부 공정성 개념은 상호 호환되지 않으며 동시에 충족될 수 없다는 개념입니다. 따라서 모든 ML 문제에 적용할 수 있는 공정성을 수량화하기 위한 단일 보편적인 측정항목은 없습니다.

이는 의욕적으로 보일 수 있지만 공정성 측정항목의 비호환성이 공정성에 대한 노력이 효과가 없다는 것을 의미하지는 않습니다. 대신 사용 사례에 따른 피해를 방지하기 위해 주어진 ML 문제에 대해 공정성을 맥락적으로 정의해야 한다고 제안합니다.

이 주제에 관한 자세한 내용은 '공정성의 가능성에 관해'를 참고하세요.

개별 공정성

#fairness

비슷한 개인이 유사하게 분류되는지 여부를 확인하는 공정성 측정항목입니다. 예를 들어, Brobdingnagian Academy는 성적이 동일하고 시험 점수가 표준화된 두 학생이 입학 가능성에 대해 똑같이 입학할 수 있도록 하여 개별적인 공정성을 충족시킬 수 있습니다.

개별 공정성은 '유사성'을 정의하는 방식에 전적으로 달려 있으며(여기서는 성적 및 시험 점수) 유사성 측정항목이 중요한 정보 (예: 학생 교육과정의 엄격성)를 놓치는 경우 새로운 공정성 문제가 생길 위험이 있습니다.

개별 공정성에 관한 자세한 내용은 '인식을 통한 공정성'을 참조하세요.

내집단 편향

#fairness

자신이 속한 그룹이나 자신의 특징을 편파적으로 표현하는 행위 테스터 또는 평가자가 머신러닝 개발자의 친구, 가족, 동료로 구성된 경우 내집단 편향은 제품 테스트 또는 데이터 세트를 무효화할 수 있습니다.

내집단 편향은 그룹 귀인 편향의 일종입니다. 외부 집단 동질화 편향을 참조하세요.

구매 불가

무응답 편향

#fairness

표본 선택 편향을 참고하세요.

O

외부 집단 동질화 편향

#fairness

태도, 가치, 성격 특성 및 기타 특성을 비교할 때 외부 집단 구성원을 내집단 구성원보다 유사한 것으로 인식하는 경향입니다. 내집단은 정기적으로 상호작용하는 사람을 말하고, 외부 집단은 정기적으로 상호작용하지 않는 사람을 말합니다. 사람들에게 외부 집단에 대한 속성을 제공하도록 요청하여 데이터 세트를 만드는 경우 이러한 속성은 참여자가 내집단의 사람들을 위해 나열하는 속성보다 미묘하고 더 고정관념일 수 있습니다.

예를 들어 난쟁이는 건축 스타일, 창, 문, 크기의 작은 차이를 언급하면서 다른 난쟁이의 주택을 매우 자세하게 설명할 수 있습니다. 그러나 같은 난쟁이가 모두 브로딩나기인들이 한 집에 살고 있다고 주장할 수도 있습니다.

외부 집단 동질화 편향은 그룹 귀인 편향의 일종입니다.

내집단 편향을 참조하세요.

P

참여 편향

#fairness

무응답 편향의 동의어입니다. 표본 선택 편향을 참고하세요.

후처리

#fairness
#fundamentals

모델이 실행된 후에 모델의 출력을 조정합니다. 후처리는 모델 자체를 수정하지 않고 공정성 제약조건을 적용하는 데 사용할 수 있습니다.

예를 들어 특정 속성의 모든 값에 대해 참양성률이 동일한지 확인하여 기회의 균등이 유지되도록 분류 임계값을 설정하여 바이너리 분류기에 후처리를 적용할 수 있습니다.

예측 패리티

#fairness

지정된 분류 기준에서 정밀도 비율이 고려 중인 하위 그룹과 동일한지 확인하는 공정성 측정항목입니다.

예를 들어 대학 입학을 예측하는 모델의 정밀도가 난쟁이와 브로브딩나기인의 정밀도가 동일하면 국적 예측 패리티를 충족할 것입니다.

예측 패리티를 예측률 패리티라고도 합니다.

예측 패리티에 관한 자세한 내용은 '공정성 정의 설명' (섹션 3.2.1)을 참고하세요.

예측 비율 패리티

#fairness

예측 패리티의 또 다른 이름입니다.

사전 처리

#fairness
모델을 학습시키는 데 사용되기 전에 데이터 처리 사전 처리는 영어 사전에 없는 영어 텍스트 자료에서 단어를 삭제하는 것처럼 간단할 수도 있고, 민감한 속성과 상관 관계가 있는 속성을 가능한 한 많이 제거하는 방식으로 데이터 포인트를 다시 표현하는 것만큼 복잡할 수도 있습니다. 전처리는 공정성 제약 조건을 충족하는 데 도움이 될 수 있습니다.

프록시 (민감한 속성)

#fairness
민감한 속성의 대책으로 사용되는 속성입니다. 예를 들어 개인의 우편번호는 소득, 인종 또는 민족의 대리인으로 사용될 수 있습니다.

R

보고 편향

#fairness

사람들이 작업, 결과 또는 속성에 관한 글을 작성하는 빈도가 실제 빈도나 속성이 개인 클래스의 특징이 되는 정도를 반영하는 것은 아닙니다. 보고 편향은 머신러닝 시스템이 학습하는 데이터의 구성에 영향을 줄 수 있습니다.

예를 들어 책에서 웃음이라는 단어가 호흡보다 더 많이 나옵니다. 도서 자료에서 웃음과 호흡의 상대적 빈도를 추정하는 머신러닝 모델은 호흡보다 웃음이 더 흔하다고 판단할 수 있습니다.

S

표본 추출 편향

#fairness

표본 선택 편향을 참고하세요.

표본 선택 편향

#fairness

데이터에서 관찰된 샘플과 관찰되지 않은 샘플 간에 체계적인 차이를 만드는 선택 프로세스로 인해 샘플링된 데이터에서 도출한 결론에서 발생하는 오류입니다. 다음과 같은 형태의 표본 선택 편향이 존재합니다.

  • 포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 예측을 수행하는 모집단과 일치하지 않습니다.
  • 표본 추출 편향: 데이터가 대상 그룹에서 무작위로 수집되지 않습니다.
  • 무응답 편향 (참여 편향이라고도 함): 특정 그룹의 사용자가 다른 그룹의 사용자와 다른 비율로 설문조사를 거부합니다.

예를 들어 영화에 대한 사람들의 선호도를 예측하는 머신러닝 모델을 만든다고 가정해 보겠습니다. 학습 데이터를 수집하기 위해 영화관 맨 앞줄에서 영화를 상영하는 모든 사람에게 설문조사를 나눠줍니다. 언뜻 보기에는 데이터 세트를 수집하는 합리적인 방법처럼 들릴 수 있지만, 이러한 형태의 데이터 수집으로 인해 다음과 같은 형태의 선택 편향이 발생할 수 있습니다.

  • 포함 편향: 영화를 보기로 선택한 집단에서 샘플링하면 영화에 대한 관심을 표명하지 않은 사람들에게 모델의 예측이 일반화되지 않을 수 있습니다.
  • 표본집단 편향: 의도된 집단 (영화 속 모든 인물)에서 무작위로 샘플링하는 대신 맨 앞줄에 있는 사람들만 샘플링했습니다. 맨 앞줄에 앉은 사람들이 다른 줄의 사람들보다 영화에 더 관심이 있을 가능성이 있습니다.
  • 무응답 편향: 일반적으로 의견이 강한 사람은 온화한 사람보다 선택적인 설문조사에 더 자주 참여하는 경향이 있습니다. 영화 설문조사는 선택사항이므로 응답은 일반적인 (종 모양) 분포가 아닌 이봉분포를 형성할 가능성이 높습니다.

민감한 속성

#fairness
법적, 윤리적, 사회적 또는 개인적 이유로 특별히 고려할 수 있는 인간의 속성입니다.

U

(민감한 속성에 대해)

#fairness

민감한 속성이 있지만 학습 데이터에는 포함되지 않는 상황입니다. 민감한 속성은 데이터의 다른 속성과 상관관계가 있는 경우가 많으므로 민감한 속성을 인식하지 못하는 상태로 학습된 모델은 해당 속성과 관련하여 상이한 영향을 미치거나 다른 공정성 제약 조건을 위반할 수 있습니다.