공정성: 편향 식별

모델 학습 및 평가를 위해 데이터를 준비할 때는 공정성 문제를 염두에 두고 잠재적인 편향의 원인을 감사하여 모델을 프로덕션에 출시하기 전에 그 영향을 사전에 완화할 수 있도록 하는 것이 중요합니다.

편향이 발생할 수 있는 위치는 어디인가요? 다음은 데이터 세트에서 주의해야 할 위험 신호입니다.

누락된 특성 값

데이터 세트의 다수의 예에서 값이 누락된 특성이 하나 이상 있는 경우 데이터 세트의 주요 특성 중 일부가 제대로 표현되지 않았음을 나타내는 지표일 수 있습니다.

연습문제: 이해도 확인

품종, 연령, 체중, 기질, 매일 털이 빠지는 양 등 다양한 특징을 기반으로 구조견의 입양 가능성을 예측하는 모델을 학습하고 있습니다. 목표는 모델이 신체적 또는 행동적 특성과 관계없이 모든 유형의 개에서 동일하게 우수한 성능을 발휘하도록 하는 것입니다.

학습 세트의 5,000개 예시 중 1,500개에 기질 값이 누락된 것으로 확인됩니다. 다음 중 조사해야 할 잠재적 편향의 원인은 무엇인가요?

특정 품종의 경우 기질 데이터가 누락될 가능성이 더 큽니다.
기질 데이터의 가용성이 개 품종과 상관관계가 있는 경우 특정 견종의 입양 가능성 예측의 정확도가 떨어질 수 있습니다.
12개월 미만의 강아지에게는 기질 데이터가 누락될 가능성이 더 큽니다.
기질 데이터의 가용성이 연령과 관련이 있는 경우 강아지와 성견의 입양 가능성 예측이 달라질 수 있습니다.
대도시에서 구조된 모든 개의 기질 데이터가 누락되었습니다.
언뜻 보기에는 누락된 데이터가 품종, 나이, 체중 등과 관계없이 대도시의 모든 개에게 동등하게 영향을 미치기 때문에 이것이 잠재적인 편향의 원인인 것처럼 보이지 않을 수 있습니다. 하지만 강아지의 위치가 이러한 물리적 특성의 대용물로 효과적으로 기능할 수 있다는 점을 고려해야 합니다. 예를 들어 대도시의 개가 농촌 지역의 개보다 훨씬 작을 가능성이 높으면 소형견이나 특정 소형견 품종의 입양 가능성 예측이 덜 정확할 수 있습니다.
데이터 세트에서 기질 데이터가 무작위로 누락되어 있습니다.
기질 데이터가 실제로 무작위로 누락되는 경우 편향의 원인이 될 수 없습니다. 하지만 기질 데이터가 무작위로 누락된 것처럼 보일 수 있지만 추가 조사를 통해 불일치에 대한 설명을 찾을 수 있습니다. 따라서 데이터 공백이 무작위라고 가정하는 대신 다른 가능성을 배제하기 위해 철저히 검토하는 것이 중요합니다.

예기치 않은 특성 값

데이터를 탐색할 때는 특히 비정상적이거나 특이한 특성 값이 포함된 예시도 찾아야 합니다. 이러한 예기치 않은 기능 값은 데이터 수집 중에 발생한 문제 또는 편향을 일으킬 수 있는 기타 부정확성을 나타낼 수 있습니다.

연습문제: 이해도 확인

구조견 입양 가능성 모델을 학습시키기 위한 다음 가설적 예시 집합을 검토하세요.

품종 연령 (세) 체중 (lbs) 성격 shedding_level
토이 푸들 2 12 흥분성 낮음
골든 리트리버 7 65 차분함 high
래브라도 리트리버 35 73 차분함 high
프렌치 불도그 0.5 11 차분함 중간
알 수 없는 혼합 품종 4 45 흥분성 high
바셋하운드 9 48 차분함 중간
지형지물 데이터에 문제가 있는지 확인할 수 있나요?
답변을 보려면 여기를 클릭하세요.

데이터 편향

특정 그룹 또는 특성이 실생활에 비해 과소 또는 과대 대표될 수 있는 모든 종류의 데이터 편향은 모델에 편향을 초래할 수 있습니다.

모델 실적을 감사할 때는 집계된 결과를 살펴보는 것뿐만 아니라 하위 그룹별로 결과를 분류하는 것이 중요합니다. 예를 들어 구조견 입양 가능성 모델의 경우 공정성을 보장하려면 전반적인 정확성만 살펴서는 충분하지 않습니다. 또한 각 개의 품종, 연령대, 크기 그룹에서 모델이 동일하게 우수한 성능을 발휘하는지 확인하기 위해 하위 그룹별로 성능을 감사해야 합니다.

이 모듈의 후반부인 편향 평가에서 하위 그룹별로 모델을 평가하는 다양한 방법을 자세히 살펴봅니다.