모델 학습 및 평가를 위해 데이터를 준비할 때는 공정성 문제를 염두에 두고 보안 침해의 잠재적 원인을 편향이 없으므로 영향을 사전에 완화하는 것이 중요합니다.
어디에 편향이 숨어 있을까요? 다음은 데이터 세트에서 주의해야 할 위험 신호입니다.
누락된 특성 값
데이터 세트에 대규모 데이터에 대해 누락된 값이 있는 특성이 하나 이상 있는 경우 이는 사례의 수가 많다는 것을 의미합니다. 과소 표현된다는 의미입니다.
연습문제: 학습 내용 점검하기
학습 세트의 예 5,000개 중 1,500개가 기질 값이 누락되었기 때문입니다. 다음 중 잠재적 출처는 무엇인가요? 어떤 편향을 조사해야 할까요?
예기치 않은 특성 값
데이터를 탐색할 때는 특성 값이 포함된 예시도 찾아야 합니다. 특별히 특이하거나 특이한 점이 발견되었습니다. 예상치 못한 기능 값은 데이터 수집 또는 기타 작업 중에 발생한 문제를 나타낼 수 있습니다. 편견을 초래할 수 있는 부정확성입니다.
연습문제: 학습 내용 점검하기
구조견을 훈련시키기 위한 다음의 가상의 예시 집합을 검토하세요. 채택 가능성 모델입니다.
품종 | 연령 (세) | 체중 (lbs) | 성격 | shedding_level |
---|---|---|---|---|
토이 푸들 | 2 | 12 | 흥분되는 | 낮음 |
골든 리트리버 | 7 | 65 | 차분함 | high |
래브라도 리트리버 | 35 | 73 | 차분함 | high |
프렌치 불도그 | 0.5 | 11 | 차분함 | 중간 |
알 수 없는 혼종 | 4 | 45 | 흥분되는 | high |
바셋하운드 | 9 | 48 | 차분함 | 중간 |
품종 | 연령 (세) | 체중 (lbs) | 성격 | shedding_level |
---|---|---|---|---|
토이 푸들 | 2 | 12 | 흥분되는 | 낮음 |
골든 리트리버 | 7 | 65 | 차분함 | high |
래브라도 리트리버 | 35 | 73 | 차분함 | high |
프렌치 불도그 | 0.5 | 11 | 차분함 | 중간 |
알 수 없는 혼종 | 4 | 45 | 흥분되는 | high |
바셋하운드 | 9 | 48 | 차분함 | 중간 |
기네스 세계 기록에서 연령 인증을 받은 가장 오래된 개 Bluey였습니다. 오스트레일리안 캐틀독입니다. 이를 감안할 때 래브라도 리트리버가 실제로 35살이라는 것은 매우 믿기 힘든 것처럼 보입니다. 개의 나이가 계산되거나 기록되었을 가능성이 더 크다는 것을 정확하지 않습니다. 강아지가 실제로는 3.5살일 수도 있습니다. 이 오류로 인해 데이터 세트의 연령 데이터에 대한 더 광범위한 정확성 문제를 나타내기도 함 추가 조사가 필요합니다.
데이터 편향
특정 그룹 또는 특성이 있을 수 있는 모든 종류의 데이터 편향 실제 보급률에 비해 과소 또는 과대 대표된 집단은 모델에 편향을 줄 수 있습니다
모델 성능을 감사할 때는 모델의 결과를 살펴보는 것뿐만 아니라 하위 그룹별로 결과를 분류할 수 있습니다. 예를 들어 구조견 입양 가능성 모델을 사용하는데, 공정성을 보장하기 위해 전반적인 정확성을 살펴봅니다. 하위 그룹별로도 실적을 감사해야 합니다. 모델이 각 견종, 연령대, 성별에 관계없이 크기 그룹
이 모듈의 후반부에 있는 편향 평가하기에서는 하위 그룹별로 모델을 평가하는 다양한 방법을 자세히 살펴보겠습니다.