공정성: 편향 식별

모델 학습 및 평가를 위해 데이터를 준비할 때는 공정성 문제를 염두에 두고 보안 침해의 잠재적 원인을 편향이 없으므로 영향을 사전에 완화하는 것이 중요합니다.

어디에 편향이 숨어 있을까요? 다음은 데이터 세트에서 주의해야 할 위험 신호입니다.

누락된 특성 값

데이터 세트에 대규모 데이터에 대해 누락된 값이 있는 특성이 하나 이상 있는 경우 이는 사례의 수가 많다는 것을 의미합니다. 과소 표현된다는 의미입니다.

연습문제: 학습 내용 점검하기

모델을 학습시켰으며 이 모델을 기반으로 하여 구조견의 입양 가능성을 품종, 나이, 몸무게, 기질, 확인할 수 있습니다 목표는 모델이 의 신체 종류와 상관없이 모든 종류의 강아지에게 동등하게 높은 실적을 보입니다. 또는 행동 특성

학습 세트의 예 5,000개 중 1,500개가 기질 값이 누락되었기 때문입니다. 다음 중 잠재적 출처는 무엇인가요? 어떤 편향을 조사해야 할까요?

특정 품종의 경우 기질 데이터가 누락될 가능성이 있습니다.
기질 데이터의 가용성이 개의 품종과 관련이 있다면 이로 인해 각 특성에 대한 채택 가능성 예측의 정확도가 떨어질 수 있습니다. 포함할 수 있습니다.
12세 미만의 강아지의 경우 기질 데이터가 누락될 가능성이 더 높음 개월
기질 데이터의 가용성과 나이 사이의 상관관계가 있는 경우 이로 인해 강아지와 성견의 차이로,
대도시에서 구조된 모든 개의 기질 데이터가 누락되었습니다.
언뜻 보기에는 이것이 잠재적인 출처라고 보이지 않을 수 있습니다. 누락된 데이터가 큰 개의 강아지에 모두 영향을 종, 나이, 체중 등과 상관없이 동등하게 할당되었습니다. 하지만 강아지의 거주 위치를 고려해야 합니다 이러한 물리적 환경의 특성에 따라 다릅니다 예를 들어 대도시의 개가 농촌 지역에 있는 강아지보다 몸집이 작을 확률이 훨씬 높습니다 도입 가능성 예측의 정확도가 떨어질 수 있습니다. (경량)에 적합합니다.
데이터 세트에서 기질 데이터가 무작위로 누락되어 있습니다.
정말로 기질 데이터가 무작위로 누락되면 그렇다고 해서 편향의 잠재적인 원인이 될 수 있습니다 하지만, 성격이나 성격이 데이터가 무작위로 누락된 것처럼 보일 수 있지만 불일치에 대한 설명을 찾아낼 수 있습니다. 따라서 철저히 검토하여 다른 가능성은 배제하기 보다는 데이터 격차가 무작위라고 가정합니다.

예기치 않은 특성 값

데이터를 탐색할 때는 특성 값이 포함된 예시도 찾아야 합니다. 특별히 특이하거나 특이한 점이 발견되었습니다. 예상치 못한 기능 값은 데이터 수집 또는 기타 작업 중에 발생한 문제를 나타낼 수 있습니다. 편견을 초래할 수 있는 부정확성입니다.

연습문제: 학습 내용 점검하기

구조견을 훈련시키기 위한 다음의 가상의 예시 집합을 검토하세요. 채택 가능성 모델입니다.

품종 연령 (세) 체중 (lbs) 성격 shedding_level
토이 푸들 2 12 흥분되는 낮음
골든 리트리버 7 65 차분함 high
래브라도 리트리버 35 73 차분함 high
프렌치 불도그 0.5 11 차분함 중간
알 수 없는 혼종 4 45 흥분되는 high
바셋하운드 9 48 차분함 중간
특성 데이터에 있는 문제를 식별할 수 있나요?
정답을 보려면 여기를 클릭하세요.

데이터 편향

특정 그룹 또는 특성이 있을 수 있는 모든 종류의 데이터 편향 실제 보급률에 비해 과소 또는 과대 대표된 집단은 모델에 편향을 줄 수 있습니다

모델 성능을 감사할 때는 모델의 결과를 살펴보는 것뿐만 아니라 하위 그룹별로 결과를 분류할 수 있습니다. 예를 들어 구조견 입양 가능성 모델을 사용하는데, 공정성을 보장하기 위해 전반적인 정확성을 살펴봅니다. 하위 그룹별로도 실적을 감사해야 합니다. 모델이 각 견종, 연령대, 성별에 관계없이 크기 그룹

이 모듈의 후반부에 있는 편향 평가하기에서는 하위 그룹별로 모델을 평가하는 다양한 방법을 자세히 살펴보겠습니다.