공정성: 편향 유형

머신러닝 모델은 내재된 목표가 아닙니다. 엔지니어는 학습 예시 데이터 세트를 제공하여 모델을 학습시키며 이 데이터의 프로비저닝과 선별에 사람이 참여하면 모델의 예측이 편향될 수 있습니다.

모델을 구축할 때는 데이터에 나타날 수 있는 일반적인 인간 편향을 알고 있어야 합니다. 그래야만 선제적인 조치를 취하여 모델의 영향을 완화할 수 있습니다.

보고 편향

보고 편향은 데이터 세트에서 캡처된 이벤트, 속성 또는 결과의 빈도가 실제 빈도를 정확하게 반영하지 못할 때 발생합니다. 이러한 편견은 일반적이지 않고 말할 수 있기 때문에 특이하거나 기억에 남는 상황을 기록하는 데 집중하는 경향이 있기 때문에 발생할 수 있습니다.

자동화 편향

자동화 편향은 각 시스템의 오류율과 관계없이 자동화 시스템에서 생성한 결과가 자동화되지 않은 시스템에서 생성된 결과보다 선호되는 경향이 있습니다.

표본 선택 편향

표본 선택 편향은 데이터 세트의 예가 실제 분포를 반영하지 않는 방식으로 선택되는 경우에 발생합니다. 표본 선택 편향은 여러 형태를 취합니다.

  • 포함 편향: 데이터가 대표적 방식으로 선택되지 않습니다.
  • 무응답 편향(또는 참여 편향): 데이터 수집 프로세스의 참여 격차로 인해 데이터가 대표성을 갖지 못하게 됩니다.
  • 샘플링 편향: 데이터 수집에는 적절한 무작위 순서 지정이 사용되지 않습니다.

그룹 기여 분석 편향

그룹 기여 분석 편향은 개인의 특성을 개인이 속한 그룹 전체로 일반화하는 경향을 말합니다. 이러한 편향의 두 가지 주요 양상은 다음과 같습니다.

  • 내집단 편향: 자신이 소속된 그룹 또는 공유하는 특성에 대한 선호도입니다.
  • 외부 집단 동일성 편향: 자신이 속하지 않은 그룹의 개별 구성원을 고정 관념으로 파악하거나 그 특징을 보다 균일하게 보이게 하는 경향입니다.

암시적 편향

내재적 편향은 일반적으로 적용할 필요가 없는 자기의 정신적 모델과 개인적 환경을 바탕으로 가정할 때 발생합니다.

암시적 편향의 일반적인 형태는 확증 편향으로, 모델 빌더는 기존 확신과 가설을 확인하는 방식으로 무의식적으로 데이터를 처리합니다. 경우에 따라 모델 빌더는 원래의 가설에 부합하는 결과를 얻을 때까지 계속해서 모델을 학습시키기도 하며 이를 실험자 편향이라고 합니다.