이 페이지에는 공정성 용어집 용어가 포함되어 있습니다. 모든 용어집 용어는 여기를 클릭하세요.
A
속성
기능의 동의어입니다.
머신러닝 공정성에서 속성은 개인과 관련된 특성을 가리키는 경우가 많습니다.
자동화 편향
자동 의사결정 시스템에 오류가 있는 경우에도 불구하고 의사 결정권자가 자동 의사결정 시스템에서 제공되는 권장사항을 자동화 없이 생성된 정보보다 우선시하는 경우입니다.
자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.
B
편향(bias)(윤리학/공정성)
1. 특정 사물, 인물 또는 그룹에 대한 정형화, 편견 또는 편애를 말합니다. 이러한 편향은 데이터의 수집과 해석 가능성, 시스템 설계, 사용자가 시스템과 상호작용하는 방식 등에 영향을 줍니다. 이러한 유형의 편향에는 다음이 포함됩니다.
2. 샘플링 또는 보고 절차로 인해 발생하는 계통 오차입니다. 이러한 유형의 편향에는 다음이 포함됩니다.
머신러닝 모델의 바이어스 항 또는 예측 편향과 혼동하지 마시기 바랍니다.
자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.
C
확증 편향
이미 가지고 있는 믿음이나 가설을 긍정하는 방향으로 정보를 검색, 해석, 선호, 재현하는 경향입니다. 머신러닝 개발자가 의도치 않게 기존 믿음을 뒷받침하는 결과에 영향을 미치는 방식으로 데이터를 수집하거나 데이터에 라벨을 지정할 수 있습니다. 확증 편향은 내재적 편향의 한 형태입니다.
실험자 편향은 기존 가설이 확인될 때까지 실험자가 모델 학습을 계속하는 일종의 확증 편향입니다.
반사실적 공정성
분류기가 하나 이상의 민감한 속성을 제외하고 한 개인에 대해 첫 번째 개인과 동일한 다른 개인에 대해 동일한 결과를 생성하는지 확인하는 공정성 측정항목입니다. 대조 가정 공정성을 위해 분류기를 평가하는 것은 모델에서 잠재적인 편향의 원인을 표시하는 한 가지 방법입니다.
자세한 내용은 다음 중 하나를 참고하세요.
- 머신러닝 단기집중과정에서 공정성: 대조 가정 공정성
- 두 세계의 충돌: 공정성에 다양한 대안 가정 통합
포함 편향
표본 선택 편향을 참고하세요.
D
인구통계 동등성
모델 분류의 결과가 주어진 민감한 속성에 종속되지 않는 경우 충족되는 공정성 측정항목입니다.
예를 들어 릴리푸티안과 브로드빙낵인이 모두 글럽두브드리브 대학에 지원하는 경우, 한 그룹이 다른 그룹보다 평균적으로 더 자격이 있는지와 관계없이 합격한 릴리푸티안의 비율이 합격한 브로드빙낵인의 비율과 동일하면 인구통계적 동질성이 달성된 것입니다.
평등한 확률 및 기회 균등성과는 대조적입니다. 이 두 가지는 집계된 분류 결과가 민감한 속성에 종속되도록 허용하지만 특정 지정된 실측값 라벨의 분류 결과가 민감한 속성에 종속되도록 허용하지 않습니다. 인구통계적 균등성을 위해 최적화할 때의 절충점을 보여주는 시각화를 확인하려면 '더 스마트한 머신러닝으로 차별을 타파하는 방법'을 참고하세요.
자세한 내용은 머신러닝 단기집중과정의 공정성: 인구통계 균등성을 참고하세요.
차별적 영향
인구 하위 그룹에 불균형하게 영향을 미치는 사람에 관한 결정을 내리는 행위 이는 일반적으로 알고리즘 기반 의사 결정 프로세스가 일부 하위 그룹에 다른 하위 그룹보다 더 많은 피해를 주거나 이익을 주는 상황을 말합니다.
예를 들어 릴리푸티안의 소형 주택 담보 대출 자격 요건을 결정하는 알고리즘이 우편 주소에 특정 우편번호가 포함된 경우 '자격 요건 미충족'으로 분류할 가능성이 더 높다고 가정해 보겠습니다. Big-Endian Lilliputians가 Little-Endian Lilliputians보다 이 우편번호가 포함된 우편 주소를 보유할 가능성이 더 높다면 이 알고리즘으로 인해 차별적인 영향을 미칠 수 있습니다.
하위 그룹 특성이 알고리즘 기반 의사 결정 프로세스에 명시적으로 입력될 때 발생하는 불균형에 초점을 맞추는 차별적 대우와는 대조적입니다.
차별적 대우
다양한 하위 그룹을 다르게 대우하도록 알고리즘 기반 의사 결정 프로세스에 피험자의 민감한 속성을 고려하는 경우
예를 들어 대출 신청 시 제공한 데이터를 기반으로 릴리푸티안의 소형 주택 대출 자격 요건을 결정하는 알고리즘을 생각해 보세요. 알고리즘이 Lilliputian의 제휴를 Big-Endian 또는 Little-Endian으로 입력으로 사용하는 경우 해당 측정기준에 따라 차별적인 대우를 실행하는 것입니다.
이는 하위 그룹이 모델의 입력인지와 관계없이 하위 그룹에 대한 알고리즘 결정의 사회적 영향의 불균형에 초점을 맞추는 차별적 영향과는 대조적입니다.
E
기회의 평등
모델이 민감한 속성의 모든 값에 대해 바람직한 결과를 동일하게 잘 예측하는지 평가하는 공정성 측정항목입니다. 즉, 모델의 바람직한 결과가 양성 클래스인 경우 목표는 모든 그룹에서 참양성률이 동일하도록 하는 것입니다.
기회의 균등은 평등한 확률과 관련이 있으며, 이 경우 참양성률과 거짓양성률이 모든 그룹에서 모두 동일해야 합니다.
Glubbdubdrib 대학에서 엄격한 수학 프로그램에 릴리푸티안과 브로드빙낵인 모두를 입학시키기로 했다고 가정해 보겠습니다. 릴리푸티안 중등학교에서는 수학 수업의 강력한 커리큘럼을 제공하며, 대다수의 학생이 대학 프로그램 자격 요건을 충족합니다. 브로드빙낵의 중등학교에서는 수학 수업을 전혀 제공하지 않으므로 자격 요건을 충족하는 학생이 훨씬 적습니다. 국적(Lilliputian 또는 Brobdingnagian)과 관련하여 선호되는 'admitted'(입학) 라벨에 대한 기회의 평등은 자격을 갖춘 학생이 Lilliputian인지 Brobdingnagian인지와 관계없이 동등하게 입학할 가능성이 있는 경우 충족됩니다.
예를 들어 100명의 릴리푸티안과 100명의 브로드빙낵인이 글럽두브드리브 대학에 지원하고 다음과 같이 입학 결정이 내려졌다고 가정해 보겠습니다.
표 1. Lilliputian 신청자 (90% 가 자격 요건을 충족함)
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 45 | 3 |
거부됨 | 45 | 7 |
합계 | 90 | 10 |
자격 요건을 충족하는 학생의 합격률: 45/90 = 50% 자격 요건을 충족하지 않는 학생의 탈락률: 7/10 = 70% 리리푸티안 학생의 총 합격률: (45+3)/100 = 48% |
표 2. Brobdingnagian 신청자 (자격 요건을 충족하는 신청자: 10%):
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 5 | 9 |
거부됨 | 5 | 81 |
합계 | 10 | 90 |
자격 요건을 충족하는 학생 중 합격한 비율: 5/10 = 50% 자격 요건을 충족하지 않는 학생 중 탈락한 비율: 81/90 = 90% 브로드빙거니아 학생 중 합격한 총 비율: (5+9)/100 = 14% |
위의 예시에서는 자격을 갖춘 릴리푸티안과 브로드빙거지안 모두 입학할 확률이 50% 이므로 자격을 갖춘 학생을 받아들이는 데 있어 기회의 평등을 충족합니다.
기회의 균등은 충족되지만 다음 두 가지 공정성 측정항목은 충족되지 않습니다.
- 인구통계 동등성: 릴리푸티안과 브로드빙낵인 학생이 대학에 합격하는 비율이 다릅니다. 릴리푸티안 학생의 48% 가 합격하지만 브로드빙낵인 학생의 경우 14% 만 합격합니다.
- 동등한 확률: 자격을 갖춘 릴리푸티안 학생과 브로드빙낵 학생 모두 합격할 확률이 동일하지만, 자격을 갖추지 못한 릴리푸티안 학생과 브로드빙낵 학생 모두 낙방할 확률이 동일하다는 추가 제약 조건은 충족되지 않습니다. 자격 요건을 충족하지 않는 릴리푸티안의 거부율은 70% 인 반면, 자격 요건을 충족하지 않는 브로드빙거인의 거부율은 90% 입니다.
자세한 내용은 머신러닝 단기집중과정의 공정성: 기회의 평등을 참고하세요.
동등한 배당률
모델이 양성 클래스와 음성 클래스에 대해 민감한 속성의 모든 값에 대해 동일하게 잘 예측하는지 평가하는 공정성 측정항목입니다. 단지 한 클래스만이 아니라 두 클래스 모두에 대해 평가합니다. 즉, 참양성률과 거짓음성률은 모든 그룹에서 동일해야 합니다.
균등화된 확률은 단일 클래스의 오류율 (양수 또는 음수)에만 초점을 맞추는 기회의 균등과 관련이 있습니다.
예를 들어 Glubbdubdrib 대학에서 엄격한 수학 프로그램을 제공하고 있으며, Lilliputian과 Brobdingnagian 모두 이 프로그램에 참여한다고 가정해 보겠습니다. 릴리푸티안의 중등학교는 수학 수업의 강력한 커리큘럼을 제공하며, 대다수의 학생이 대학 프로그램에 참여할 자격을 갖추고 있습니다. 브로드빙낵의 중등학교에서는 수학 수업을 전혀 제공하지 않으므로 자격 요건을 충족하는 학생이 훨씬 적습니다. 신청자가 릴리푸티안이든 브로드빙낵인 이든 자격 요건을 충족하는 경우 프로그램에 합격할 가능성이 동일하고 자격 요건을 충족하지 않는 경우 거부될 가능성이 동일하다면 동등한 기회가 충족됩니다.
100명의 릴리푸티안과 100명의 브로드빙낵인이 글럽두브드리브 대학교에 지원하고 다음과 같이 입학 결정이 내려졌다고 가정해 보겠습니다.
표 3. Lilliputian 신청자 (90% 가 자격 요건을 충족함)
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 45 | 2 |
거부됨 | 45 | 8 |
합계 | 90 | 10 |
자격 요건을 충족하여 입학한 학생의 비율: 45/90 = 50% 자격 요건을 충족하지 못하여 탈락한 학생의 비율: 8/10 = 80% 입학한 릴리푸티안 학생의 총 비율: (45+2)/100 = 47% |
표 4. Brobdingnagian 신청자 (자격 요건을 충족하는 신청자: 10%):
적격성 확인됨 | 자격 없음 | |
---|---|---|
Admitted(수락됨) | 5 | 18 |
거부됨 | 5 | 72 |
합계 | 10 | 90 |
자격 요건을 충족하는 학생의 합격률: 5/10 = 50% 자격 요건을 충족하지 않는 학생의 탈락률: 72/90 = 80% 브로드빙거니아 학생의 총 합격률: (5+18)/100 = 23% |
자격을 갖춘 릴리푸티안 학생과 브로드빙거지안 학생 모두 합격할 확률이 50% 이고 자격을 갖추지 못한 릴리푸티안 학생과 브로드빙거지안 학생은 80% 의 비율로 거부되므로 동등한 확률이 충족됩니다.
동등한 확률은 '감독 학습의 기회 균등성'에서 다음과 같이 공식적으로 정의됩니다. '예측자 Ŷ가 Y에 조건부로 Ŷ와 A가 독립적인 경우 보호된 속성 A와 결과 Y에 대해 동등한 확률을 충족합니다.'
실험자 편향
확증 편향을 참고하세요.
F
공정성 제약조건
하나 이상의 공정성 정의가 충족되도록 알고리즘에 제약조건을 적용합니다. 공정성 제약 조건의 예는 다음과 같습니다.공정성 측정항목
측정 가능한 '공정성'의 수학적 정의입니다. 일반적으로 사용되는 공정성 측정항목은 다음과 같습니다.
많은 공정성 측정항목은 상호 배타적입니다. 공정성 측정항목의 비호환성을 참고하세요.
G
그룹 귀인 편향
특정 개인의 진실이 해당 그룹에 속한 모든 사람에게도 진실일 것이라고 가정합니다. 데이터 수집을 위해 간편 샘플링을 사용할 경우 그룹 귀인 편향 효과가 악화될 수 있습니다. 대표성이 없는 샘플에서 현실을 반영하지 않는 귀인이 생성될 수 있습니다.
외부 집단 동질화 편향 및 내집단 편향도 참고하세요. 자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.
H
과거 편향
이미 세상에 존재하고 데이터 세트로 유입된 편향의 한 유형입니다. 이러한 편향은 기존의 문화적 고정관념, 인구통계적 불평등, 특정 사회 집단에 대한 편견을 반영하는 경향이 있습니다.
예를 들어 두 지역의 현지 은행에서 1980년대의 대출 채무 불이행 관련 데이터를 바탕으로 학습하여 대출 신청자가 대출을 불이행할지 예측하는 분류 모델을 생각해 보겠습니다. 과거에 커뮤니티 A의 신청자가 커뮤니티 B의 신청자보다 6배 더 자주 대출을 연체했다면 모델은 과거의 편향을 학습하여 커뮤니티 A의 대출 승인 가능성을 낮추게 될 수 있습니다. 이때 커뮤니티 A의 높은 연체율을 초래한 과거 조건이 더 이상 관련이 없더라도 마찬가지입니다.
자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.
I
내재적 편향
자신의 정신적 모델 및 기억을 바탕으로 자동으로 연관 또는 가정합니다. 내재적 편향은 다음에 영향을 줄 수 있습니다.
- 데이터 수집 및 분류 방법
- 머신러닝 시스템 설계 및 개발 방법
예를 들어 결혼사진을 식별하기 위해 분류기를 만들 때 엔지니어는 사진에 나타나는 흰색 드레스를 특성으로 사용할 수 있습니다. 하지만 흰색 드레스는 특정 시대와 특정 문화에서만 관례적으로 사용됩니다.
확증 편향도 참고하세요.
공정성 측정항목의 비호환성
일부 공정성 개념은 서로 호환되지 않으며 동시에 충족할 수 없다는 생각입니다. 따라서 모든 ML 문제에 적용할 수 있는 공정성을 수치화하는 단일 보편적인 측정항목은 없습니다.
공정성 측정항목이 호환되지 않는다고 해서 공정성 노력이 무익하다는 의미는 아닙니다. 대신 공정성은 사용 사례에 따른 피해를 방지하는 것을 목표로 주어진 ML 문제에 맞는 맥락 속에서 정의되어야 한다고 제안합니다.
이 주제에 관한 자세한 내용은 '공정성의 (불)가능성'을 참고하세요.
개인 공정성
유사한 개인이 유사하게 분류되는지 확인하는 공정성 측정항목입니다. 예를 들어 Brobdingnagian Academy는 동일한 성적과 표준화된 시험 점수를 가진 두 학생이 동등하게 입학할 수 있도록 하여 개인의 공정성을 충족하고자 할 수 있습니다.
개인 공정성은 '유사성'(이 경우 성적 및 시험 점수)을 정의하는 방식에 전적으로 의존하며, 유사성 측정항목에서 중요한 정보 (예: 학생의 커리큘럼의 엄격도)를 놓치면 새로운 공정성 문제가 발생할 수 있습니다.
개인 공정성에 관한 자세한 내용은 '인식 기반 공정성'을 참고하세요.
내집단 편향
자신이 속한 그룹이나 자신이 갖고 있는 특성을 편애하는 경향을 나타냅니다. 테스터 또는 평가자가 머신러닝 개발자의 친구, 가족 또는 동료들로 구성된다면 내집단 편향으로 인해 제품 테스트 또는 데이터 세트가 무효화될 수 있습니다.
내집단 편향은 그룹 귀인 편향의 한 형태입니다. 외부 집단 동질화 편향도 참고하세요.
자세한 내용은 머신러닝 단기집중과정의 공정성: 편향 유형을 참고하세요.
N
무응답 편향
표본 선택 편향을 참고하세요.
O
외부 집단 동질화 편향
태도, 가치, 성격 특성 및 기타 특성을 비교할 때 외부 집단 구성원을 내집단 구성원과 유사한 것으로 간주하는 경향입니다. 내집단은 정기적으로 상호작용하는 사람을 말하고, 외부 집단은 정기적으로 상호작용하지 않는 사람을 말합니다. 외부 집단에 대한 속성을 제공하도록 사람들에게 요청하여 데이터 세트를 생성하는 경우 이러한 속성은 참여자가 내집단에 해당하는 사람들에 대해 나열하는 속성보다 덜 미묘하고 더 진부할 수 있습니다.
예를 들어 난쟁이가 건축 스타일, 창, 문, 크기 등 작은 차이를 인용하면서 다른 난쟁이의 주택을 자세히 설명할 수 있습니다. 하지만 동일한 난쟁이가 거인들은 모두 같은 집에 산다고 단언할 수도 있습니다.
외부 집단 동질화 편향은 그룹 귀인 편향의 한 형태입니다.
내집단 편향도 참고하세요.
P
응답 참여 편향
무응답 편향의 동의어입니다. 표본 선택 편향을 참고하세요.
후처리
모델이 실행된 후 모델의 출력을 조정합니다. 후처리를 사용하면 모델 자체를 수정하지 않고도 공정성 제약조건을 적용할 수 있습니다.
예를 들어 양성 예측률이 속성의 모든 값에 대해 동일한지 확인하여 일부 속성에 대해 기회 균등성이 유지되도록 분류 기준을 설정하여 이진 분류기에 후처리를 적용할 수 있습니다.
예측 패리티
주어진 분류기에 대해 고려 중인 하위 그룹의 정밀도 비율이 동일한지 확인하는 공정성 측정항목입니다.
예를 들어 대학 합격을 예측하는 모델은 정밀도가 릴리푸티안과 브로드빙낵인에서 동일하면 국적에 대한 예측 패리티를 충족합니다.
예측 동등성을 예측 요금 동등성이라고도 합니다.
예측 동등성에 관한 자세한 내용은 '공정성 정의 설명' (3.2.1 섹션)을 참고하세요.
예측 가격 패리티
예측 패리티의 다른 이름입니다.
전처리
모델을 학습하는 데 사용하기 전에 데이터를 처리합니다. 사전처리는 영어 사전에 없는 단어를 영어 텍스트 자료에서 삭제하는 것처럼 간단할 수도 있고, 민감한 속성과 관련된 속성을 최대한 많이 제거하는 방식으로 데이터 포인트를 다시 표현하는 것처럼 복잡할 수도 있습니다. 사전 처리는 공정성 제약조건을 충족하는 데 도움이 될 수 있습니다.프록시 (민감한 속성)
민감한 속성의 대체용으로 사용되는 속성입니다. 예를 들어 개인의 우편번호가 개인의 소득, 인종 또는 민족을 나타내는 대리 변수로 사용될 수 있습니다.R
보고 편향
사용자가 작업, 결과 또는 속성에 관해 쓰는 빈도가 실제 빈도나 속성이 개인 클래스의 특징이 되는 정도를 반영하지 않는다는 사실입니다. 보고 편향은 머신러닝 시스템이 학습하는 데이터의 구성에 영향을 줄 수 있습니다.
예를 들어 책에서 웃음이라는 단어가 호흡보다 더 많이 나옵니다. 책 코퍼스에서 웃음과 호흡의 상대적 빈도를 예측하는 머신러닝 모델은 웃음이 호흡보다 더 일반적이라고 판단할 수 있습니다.
S
표본 추출 편향
표본 선택 편향을 참고하세요.
표본 선택 편향
데이터에서 관찰되는 표본과 관찰되지 않는 표본 간에 체계적인 차이를 생성하는 표본 선택 프로세스로 인해 표본 데이터에 기반한 결론에서 발생하는 오류입니다. 다음과 같은 형태의 표본 선택 편향이 존재합니다.
- 포함 편향: 데이터 세트에 표시되는 모집단이 머신러닝 모델이 예측하는 모집단과 일치하지 않습니다.
- 표본 추출 편향: 데이터가 대상 그룹에서 무작위로 수집되지 않습니다.
- 무응답 편향 (응답 참여 편향이라고도 함): 특정 그룹의 사용자가 다른 그룹의 사용자와 다른 비율로 설문조사를 거부합니다.
예를 들어 영화에 대한 사람들의 선호도를 예측하는 머신러닝 모델을 생성한다고 해 봅시다. 학습 데이터를 수집하기 위해 극장의 맨 앞줄에서 영화를 보는 모든 사람에게 설문조사를 나눠줍니다. 언뜻 보기에 이 방법이 데이터 세트를 수집하는 합리적인 방법처럼 보일 수도 있지만, 이러한 형태의 데이터 수집으로 인해 다음과 같은 표본 선택 편향이 발생할 수 있습니다.
- 포함 편향: 영화를 보도록 선택한 모집단에서 표본을 추출했기 때문에 모델 예측이 영화에 대한 관심도를 표현하지 않은 사람들을 일반화할 수 없습니다.
- 표본 추출 편향: 의도한 모집단 (영화관의 모든 사람)으로부터 무작위로 표본을 추출하는 대신 맨 앞줄에 있는 사람으로부터만 표본을 추출했습니다. 맨 앞줄에 앉아 있는 사람들이 다른 줄에 있는 사람들보다 영화에 대한 관심이 더 클 수 있습니다.
- 무응답 편향: 일반적으로 의견을 강하게 표출하는 사람일수록 온화한 사람보다 선택사항인 설문조사에 응답할 가능성이 더 높습니다. 영화 설문조사는 선택사항이므로 응답은 일반적인 (종 모양) 분포가 아닌 이봉분포를 형성할 가능성이 높습니다.
민감한 속성
법적, 윤리적, 사회적 또는 개인적 이유로 특별히 고려될 수 있는 인간적 속성입니다.U
민감한 속성에 대한 인식 부족
민감한 속성이 있지만 학습 데이터에 포함되지 않은 상황입니다. 민감한 속성은 데이터의 다른 속성과 종종 상관관계가 있으므로 민감한 속성에 대한 인식 없이 학습된 모델은 여전히 해당 속성에 대해 차별적인 영향을 미치거나 다른 공정성 제약조건을 위반할 수 있습니다.