일단 편향의 원인이 되면 이미 파악된 경우 이를 예측하기 위한 사전 조치를 취할 수 있습니다 완화할 수 있습니다 머신러닝 (ML)에는 두 가지 주요 전략이 있습니다. 엔지니어는 일반적으로 다음과 같은 편견을 해소하기 위해 사용합니다.
- 학습 데이터 증강
- 모델의 손실 함수 조정
학습 데이터 증강
학습 데이터 감사에서 누락, 오답, 편향된 데이터를 사용하는 경우 문제를 해결하는 가장 간단한 방법은 대개 추가 데이터를 수집할 수 있습니다.
그러나 학습 데이터를 보강하는 것이 이상적일 수 있지만 이 접근 방식은 데이터 레이크가 충분하지 않거나 데이터 수집을 지연시키는 사용 가능한 데이터 또는 리소스 제약 조건. 예를 들어 더 많은 데이터를 수집하는 것은 많은 비용이 들거나 시간이 오래 걸리거나 법적/개인 정보 보호 제한사항.
모델의 최적화 함수 조정
추가 학습 데이터 수집이 불가능한 경우에는 편향을 완화하는 접근 방식은 모델 단계에서 손실이 계산되는 방식을 조정하는 것입니다. Vertex AI Feature Store에서 제공되는 일반적으로 다음과 같은 최적화 함수를 사용합니다. 잘못된 모델에 페널티를 적용하는 로그 손실 학습합니다. 그러나 로그 손실은 하위 그룹 구성원을 고려해 보시기 바랍니다 따라서 로그 손실을 사용하는 대신 공정성 인식 방식으로 오류에 페널티를 적용하도록 설계된 학습 데이터에서 확인된 불균형을 완화합니다.
TensorFlow Model Remediation Library에서는 두 가지 유형의 모델을 여러 편향 완화 기법을 사용할 수 있습니다.
MinDiff: MinDiff는 데이터의 서로 다른 두 슬라이스에 대한 오차의 균형을 맞추는 것을 목표로 합니다. 남학생/여학생과 논바이너리 학생의 비교 두 그룹의 예측 분포 차이를 나타낼 수 있습니다
반사실적 로지트 페어링: 반사실적 로지트 페어링 (CLP)은 민감한 데이터를 속성이 해당 예에 대한 모델의 예측을 변경하지 않는 경우 예로 들 수 있습니다 예를 들어 학습 데이터 세트에 2개의 예시가 있는데 특성 값은 동일합니다. 단,
gender
값이male
이고 다른 한쪽의gender
값이nonbinary
인 경우 다음의 경우 CLP가 페널티를 추가합니다. 이 두 예시의 예측은 서로 다릅니다.
최적화 함수를 조정하기 위해 선택하는 기법은 다음과 같습니다. 모델의 사용 사례에 따라 달라집니다. 다음 섹션에서는 모델의 공정성을 평가하는 작업에 접근하는 방법 자세히 살펴보기 고려해야 합니다