공정성: 반사실적 공정성

지금까지 공정성 측정항목에 대한 논의는 학습이 테스트 예제에는 인구통계에 대한 포괄적인 인구통계 데이터가 포함되어 있습니다. 하위 그룹이 있습니다. 하지만 그렇지 않은 경우가 많습니다.

입학 데이터 세트에 완전한 인구통계 데이터가 포함되어 있지 않다고 가정해 보겠습니다. 대신 일부 인구통계 그룹 멤버십은 자신이 속한 그룹을 스스로 밝히기로 선택한 학생 등 예 볼 수 있습니다 이 경우 지원자 풀을 허용됨으로 분류하여 그러면 다음과 같이 표시됩니다.

학생 100명으로 구성된 지원자 풀을 두 그룹으로 나눔:
      거부된 후보 (80개 학생 아이콘) 및 승인된 후보 (20개)
      학생 아이콘입니다. 모든 아이콘은 음영 회색으로 표시되며
      인구통계 그룹 알 수 없음)(아이콘 6개 제외) 거부됨
      그룹, 학생 아이콘 2개는 파란색 음영이고 학생 아이콘 2개는 음영 처리됨
      주황색입니다. 수락됨 그룹에서 학생 아이콘 하나는 파란색 음영으로 표시되고 다른 하나는
      표시됩니다.
그림 5. 인구통계 그룹 멤버십이 있는 후보자 풀 거의 모든 후보에게 알려지지 않음 (회색으로 음영 처리된 아이콘).

두 인구통계에 대한 모델 예측을 평가하는 것은 불가능합니다. 인구통계 데이터가 없기 때문에 기회의 동등성 또는 기회의 균등 94% 에 이르렀습니다 그러나 개별 예측값의 쌍을 비교할 수 있으므로 과반수 후보자 대다수의 후보자를 비교하여 모델에 의해 공평하게 취급되어야 합니다.

예를 들어 특성 데이터를 철저히 검토했다고 가정해 보겠습니다. 2명의 후보 (다수 집단 및 소수 집단 1개)에게 제공됨 별표 주석이 달린 그룹이 있음)를 실행하여 모든 면에서 동일하게 입학 자격이 주어집니다. 모델이 두 후보 모두에 대해 동일한 예측을 수행 (즉, 둘 다 거부함) 두 가지 모두를 수락하는 경우)는 반사실적인 경우 공정성을 평가합니다. 반사실적 공정성은 특정 민감한 속성을 제외하고 모든 면에서 동일한 예 (여기에서는 인구통계 그룹 멤버십)이 동일한 모델 을 얻습니다. 학습합니다.

이전 이미지와 동일한 후보 풀
      이 버전, 파란색 학생 아이콘 (다수 그룹에 속함) 1개
      '거부됨' 섹션에 있는 주황색 학생 아이콘 (소수 집단에 해당) 1개
      별표로 표시된 항목은 이 두 개의 후보가
      인구통계학적 그룹을 제외하고 동일합니다.
그림 6. 동일한 두 추론에 대해 반사실적 공정성을 만족합니다. 주석이 포함된 예 (인구통계 그룹 구성원만 다름) 모델이 두 가지 모두에 대해 동일한 결정을 내리기 때문입니다 (거부됨).

장단점

앞서 언급했듯이 반사실적 공정성의 한 가지 주요 이점은 공정성 예측을 평가하는 데 다른 측정항목은 실현할 수 없습니다. 데이터 세트에 데이터 세트의 전체 집합이 포함되지 않은 경우 특성 값을 고려하는 경우 해당 그룹 속성에는 인구통계 동등성 또는 인구 평등을 사용하여 공정성을 평가할 수 있습니다. 그러나 이러한 그룹 속성을 유사한 문장을 찾아낸다는 점에서 실무자들은 반사실적 공정성 모델을 사용하여 모델을 사용하여 예측의 잠재적 편향을 탐색하기 위한 측정항목으로 사용할 수 있습니다

또한 인구통계 동등성과 동등성과 같은 측정항목이 기회는 그룹을 종합하여 평가하므로, 영향을 미치는 편향 문제를 은폐할 수 있습니다 개별 예측 수준에서 모델을 학습시킬 수 있으며, 이는 반사실적 공정성을 사용하여 평가합니다. 예를 들어 입학 허가가 다수 집단과 소수 집단에서 적합한 후보를 수용함 속한 집단이지만 가장 자격을 갖춘 소수 집단 후보는 가장 자격을 갖춘 과반수 후보자가 사용자 인증 정보가 허용됩니다 반사실적 공정성 분석은 이러한 종류의 불일치를 해결하여 해결할 수 있습니다.

반면에 반사실적 공정성의 주요 단점은 모델 예측의 편향을 전체적으로 파악할 수 있습니다. 식별 및 예시 쌍으로 소수의 불평등을 해결하는 것만으로는 충분하지 않을 수 있습니다. 전체 하위 그룹에 영향을 미치는 시스템적 편향 문제를 해결합니다.

가능한 경우 실무자는 두 가지를 모두 집계하여 공정성 분석 (인구통계 동등성 또는 반사실적 공정성 분석을 사용하여 광범위한 인사이트를 제공합니다

연습문제: 학습 내용 점검하기

운동 그림. 두 그룹 원: 음수
             예측 및 양성 예측.
             음성 예측은 50개의 원으로 구성됩니다.
             39개의 회색 원, 8개의 파란색 원, 3개의 주황색 원입니다. 1개
             파란색 원에는 'A', 주황색 원 하나는 'A'로 표시되어 있습니다.
             하나의 파란색 원에는 'C'라고 표시되어 있습니다. 
             양성 예측은 15개의 원으로 구성됩니다.
             회색 원 10개, 파란색 원 3개, 그리고 2
             주황색 동그라미입니다. 파란색 원 1개, 주황색 1개
             원에는 'B'가, 파란색 원 하나는 'C'로 표시되어 있습니다.
             다이어그램 아래의 범례는 파란색 원이 다음을 나타냅니다.
             다수 집단의 예에서 주황색 원은
             예를 들면 회색 원은
             그룹 멤버십을 알 수 없는 예 <ph type="x-smartling-placeholder">
</ph> 그림 7. 예시 배치에 대한 음성 예측 및 양성 예측 A, B, C라는 라벨이 지정된 세 쌍의 예시가 있습니다.

위 그림 7의 예측 세트에서 다음 동일한 쌍 (그룹 구성원 제외) 반사실적 공정성을 위반하는 예측을 받은 사례가 있습니까?

쌍 A
쌍 A의 예측은 다음과 같이 반사실적 공정성을 충족합니다. 다수 집단의 예 (파란색)와 소수 집단 (주황색)이 동일한 예측 (음성)을 받았습니다.
쌍 B
B 쌍의 예측은 다수 그룹의 예 (파란색)와 소수 집단 (주황색)이 동일한 예측 (양성)을 받았습니다.
C 페어링
쌍 C의 예측은 둘 다 다수결 그룹 (파란색) 모델이 다양한 종류의 데이터를 생성한다는 사실은 예측한 바에 따르면 2024년 10월 31일보다 성능 문제가 보다 포괄적이어야 하는데 조사했습니다. 하지만 이 결과는 반사실적인 공정성이라는 두 가지 조건이 충족되는 경우에만 동일한 예가 각각 다른 그룹에서 추출되었습니다.
이 쌍은 모두 반사실적 공정성을 위반하지 않습니다.
A와 B 쌍에 대한 예측은 반사실적 공정성을 충족합니다. 왜냐하면 두 경우 모두 다수 집단의 예와 동일한 예측을 수신합니다. C 페어링 두 예가 모두 동일한 그룹 (대다수 그룹)에 속하므로 반사실적 공정성은 이 경우에는 적용되지 않습니다.

요약

인구통계 동등성 기회의 평등, 반사실적 공정성과 반사실적 공정성은 각각 다른 수학적 정의를 공정성을 유지해야 합니다 이 세 가지 옵션은 공정성을 정량화하는 방법을 배웠습니다. 공정성에 대한 일부 정의는 서로 상호 간에 호환되지 않음 즉, 일정 시간 동안 여러 번 동시에 충족시키는 것이 불가능할 수 예측하기 위한 것입니다.

그렇다면 '적절한' 옵션을 선택하는 방법은 공정성 측정항목을 사용해야 할까요? 해야 할 일 데이터가 사용되는 상황과 고려해야 할 중요한 목표를 있습니다. 예를 들어 모든 사람이 동일한 대표성을 달성한다는 목표를 달성하기 위해 (이 경우 인구통계 동등성이 최적의 측정항목일 수 있습니다) 아니면 기회의 균등( 측정항목)?

ML 공정성에 대해 자세히 알아보고 이러한 문제를 더 자세히 알아보려면 다음을 참조하세요. 솔론 바로카스, 모리츠 하트, 아르빈드 나라야난의 공정성과 머신러닝: 한계와 기회