공정성: 편향 완화

일단 편향의 원인이 되면 이미 파악된 경우 이를 예측하기 위한 사전 조치를 취할 수 있습니다 완화할 수 있습니다 머신러닝 (ML)에는 두 가지 주요 전략이 있습니다. 엔지니어는 일반적으로 다음과 같은 편견을 해소하기 위해 사용합니다.

  • 학습 데이터 증강
  • 모델의 손실 함수 조정

학습 데이터 증강

학습 데이터 감사에서 누락, 오답, 편향된 데이터를 사용하는 경우 문제를 해결하는 가장 간단한 방법은 대개 추가 데이터를 수집할 수 있습니다.

그러나 학습 데이터를 보강하는 것이 이상적일 수 있지만 이 접근 방식은 데이터 레이크가 충분하지 않거나 데이터 수집을 지연시키는 사용 가능한 데이터 또는 리소스 제약 조건. 예를 들어 더 많은 데이터를 수집하는 것은 많은 비용이 들거나 시간이 오래 걸리거나 법적/개인 정보 보호 제한사항.

모델의 최적화 함수 조정

추가 학습 데이터 수집이 불가능한 경우에는 편향을 완화하는 접근 방식은 모델 단계에서 손실이 계산되는 방식을 조정하는 것입니다. Vertex AI Feature Store에서 제공되는 일반적으로 다음과 같은 최적화 함수를 사용합니다. 잘못된 모델에 페널티를 적용하는 로그 손실 학습합니다. 그러나 로그 손실은 하위 그룹 구성원을 고려해 보시기 바랍니다 따라서 로그 손실을 사용하는 대신 공정성 인식 방식으로 오류에 페널티를 적용하도록 설계된 학습 데이터에서 확인된 불균형을 완화합니다.

TensorFlow Model Remediation Library에서는 두 가지 유형의 모델을 여러 편향 완화 기법을 사용할 수 있습니다.

  • MinDiff: MinDiff는 데이터의 서로 다른 두 슬라이스에 대한 오차의 균형을 맞추는 것을 목표로 합니다. 남학생/여학생과 논바이너리 학생의 비교 두 그룹의 예측 분포 차이를 나타낼 수 있습니다

  • 반사실적 로지트 페어링: 반사실적 로지트 페어링 (CLP)은 민감한 데이터를 속성이 해당 예에 대한 모델의 예측을 변경하지 않는 경우 예로 들 수 있습니다 예를 들어 학습 데이터 세트에 2개의 예시가 있는데 특성 값은 동일합니다. 단, gender 값이 male이고 다른 한쪽의 gender 값이 nonbinary인 경우 다음의 경우 CLP가 페널티를 추가합니다. 이 두 예시의 예측은 서로 다릅니다.

최적화 함수를 조정하기 위해 선택하는 기법은 다음과 같습니다. 모델의 사용 사례에 따라 달라집니다. 다음 섹션에서는 모델의 공정성을 평가하는 작업에 접근하는 방법 자세히 살펴보기 고려해야 합니다

연습문제: 학습 내용 점검하기

편향 완화 기법에 관한 다음 설명 중 참인 것은 무엇인가요?
MinDiff와 CLP는 모두 모델 성능의 불일치에 페널티를 적용합니다. 민감한 속성과 연결
두 기법 모두 예측에 페널티를 적용하여 편향을 완화하는 것을 목표로 합니다. 민감한 속성이 얼마나 민감한지에 대한 불균형으로 인해 발생하는 학습 데이터에서 표현됩니다
MinDiff는 전체 분포의 차이에 페널티를 적용하고 다양한 데이터 슬라이스에 대한 예측에 페널티를 적용하는 반면, CLP는 개별 예 쌍에 대한 예측 불일치
MinDiff는 두 점수 분포를 정렬하여 편향을 해결합니다 하위 그룹을 만들 수 있습니다. CLP는 개별 예시가 틀에 박히게 하고 하위 그룹 구성원이라는 이유만으로 다르게 취급되지 않습니다.
학습 데이터 세트에 예시를 더 추가하면 언제든지 도움이 됩니다. 편향을 완화하는 방법을 학습합니다.
학습 예시를 더 추가하는 것은 편향은 완화되지만 새로운 학습 데이터의 구성은 중요합니다 추가 학습 예시가 원본 데이터와의 불균형이 있다면 이를 완화하는 데 영향을 줄 수 있습니다.
학습 데이터를 더 추가하여 편향을 완화하려면 학습 중에 MinDiff 또는 CLP를 적용해서는 안 됩니다.
학습 데이터 증강 및 MinDiff 또는 CLP와 같은 기법 적용 상호 보완적일 수 있습니다. 예를 들어 ML 엔지니어는 불일치를 줄이기 위해 충분한 추가 학습 데이터 수집 30% 향상한 다음 MinDiff를 사용하여 다른 50%의 차이