공정성: 편향 평가

모델을 평가할 때 전체 테스트 또는 검증 세트에 대해 계산된 측정항목은 모델의 공정성을 항상 정확히 파악하는 것은 아닙니다.

환자 1,000명의 검증 레코드를 기준으로 평가되는 종양의 존재를 예측하기 위해 개발된 새로운 모델을 생각해 보세요. 기록 500개는 여성 환자의 기록이고, 500개는 남성 환자의 기록입니다. 다음 혼동 행렬은 1,000개의 예시에 대한 결과를 요약한 것입니다.

참양성 (TP): 16 거짓양성 (FP): 4
거짓음성 (FN): 6 참음성 (TN): 974
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{16}{16+4} = 0.800$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{16}{16+6} = 0.727$$

이러한 결과는 정밀도 80%, 재현율 72.7% 등 유망한 것으로 보입니다. 하지만 각 환자 집합의 결과를 따로 계산하면 어떻게 될까요? 결과를 여성 환자와 남성 환자를 위한 두 가지 별도 혼동 행렬로 나눠 보겠습니다.

여성 환자 결과

참양성 (TP): 10 거짓양성 (FP): 1
거짓음성 (FN): 1 참음성 (TN): 488
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{10}{10+1} = 0.909$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{10}{10+1} = 0.909$$

남성 환자 결과

참양성 (TP): 6 거짓양성 (FP): 3
거짓음성 (FN): 5 참음성 (TN): 486
$$\text{Precision} = \frac{TP}{TP+FP} = \frac{6}{6+3} = 0.667$$
$$\text{Recall} = \frac{TP}{TP+FN} = \frac{6}{6+5} = 0.545$$

여성과 남성 환자의 측정항목을 별도로 계산하면 각 그룹의 모델 성능에서 뚜렷한 차이가 나타납니다.

여성 환자:

  • 실제로 종양이 있었던 여성 환자 11명 중 모델이 10명의 환자를 양성으로 정확하게 예측했습니다 (재현율: 90.9%). 즉, 모델이 여성 사례의 9.1% 에 있는 종양 진단을 놓쳤습니다.

  • 마찬가지로 모델이 여성 환자의 종양에 양성을 반환할 때 11개 중 10개 사례에서 정확했습니다 (정밀도: 90.9%). 다시 말해 모델이 여성 사례의 9.1% 에 관해 종양을 잘못 예측한 것입니다.

남성 환자:

  • 그러나 실제로 종양이 있는 남성 환자 11명 중 모델이 6명의 환자만을 양성으로 정확하게 예측했습니다 (재현율: 54.5%). 즉, 모델이 남성 사례의 45.5% 에 관해서는 종양 진단을 놓쳤습니다.

  • 모델이 남성 환자의 종양에 양성을 반환할 때 9개 중 6개 사례에서만 정확했습니다 (정밀도: 66.7%). 다시 말해 모델이 남성 환자 사례의 33.3% 에 관해 종양을 잘못 예측한 것입니다.

이제 모델 예측에 내재된 편향을 이해했고, 일반 대중에서 의학적 용도로 모델을 출시한 경우 각 하위 그룹에 미치는 위험을 더 잘 이해했습니다.

추가 공정성 리소스

공정성은 머신러닝 분야에 대한 상대적으로 새로운 하위 분야입니다. 머신러닝 모델에서 편향을 파악하고 완화하기 위한 새로운 도구 및 기술 개발에 전념하는 연구 및 이니셔티브에 관해 자세히 알아보려면 Google의 머신러닝 공정성 리소스 페이지