샘플링 및 분할: 이해도 확인

다음 질문의 경우 원하는 화살표를 클릭하여 답을 확인하세요.

1:1000 포지티브 네거티브 비율의 데이터 세트가 있다고 가정해 보겠습니다. 안타깝게도 모델이 항상 과반수 클래스를 예측합니다. 이 문제를 해결하는 데 가장 도움이 되는 기법은 무엇인가요? 모델이 보정된 확률을 보고하려는 경우
제외 예만 다운샘플링하세요.
좋은 시작입니다. 하지만 더 이상 보정되지 않도록 모델의 기본 속도를 변경합니다.
제외 예 (대부분 클래스)를 다운샘플링합니다. 그런 다음 다운샘플링된 클래스에 동일한 가중치를 가중치로 적용합니다.
이는 불균형 데이터를 처리하고 라벨의 실제 분포를 얻을 수 있는 효과적인 방법입니다. 모델이 보정된 확률을 보고하는지 여부는 중요합니다. 보정할 필요가 없는 경우 기본 요율을 변경할 필요가 없습니다.
다음 중 데이터 세트 꼬리에서 데이터가 손실되는 기법은 무엇인가요? 해당 사항을 모두 선택하세요.
개인 식별 정보 필터링
데이터에서 개인 식별 정보를 필터링하면 꼬리의 정보가 삭제되어 분포가 왜곡될 수 있습니다.
가중치 부여
예시 가중치를 적용하면 여러 예의 중요도는 달라질 수 있지만 정보가 사라진 것은 아닙니다. 실제로 꼬리 예시에 가중치를 추가하면 모델이 꼬리와 관련된 행동을 학습하는 데 도움이 됩니다.
다운샘플링
특성 분포의 꼬리에서 다운샘플링의 정보가 손실됩니다. 그러나 일반적으로 대다수 클래스를 다운샘플링하므로 이 손실은 일반적으로 큰 문제가 아닙니다.
정규화
정규화는 개별 예시에서 작동하므로 샘플링 편향이 발생하지 않습니다.
분류 문제를 작업하고 있으며 데이터를 학습, 평가, 테스트 세트로 무작위로 분할합니다. 분류기가 완벽하게 작동하는 것 같습니다. 그러나 프로덕션에서는 분류기가 완전 실패입니다. 나중에 랜덤 분할로 인해 문제가 발생한다는 것을 알게 되었습니다. 어떤 종류의 데이터가 문제가 발생하기 쉬운가요?
시계열 데이터
무작위 분할은 테스트/학습 분할에서 각 클러스터를 분할하여 프로덕션에서 사용할 수 없는 모델에 '미리보기'를 제공합니다.
시간이 지나도 크게 달라지지 않는 데이터
시간이 지남에 따라 데이터가 크게 변경되지 않으면 무작위 분할로 더 나은 확률을 얻을 수 있습니다. 예를 들어 사진에서 견종을 식별하거나 생체 인식의 이전 데이터를 토대로 심장 결함의 위험이 있는 환자를 예측할 수 있습니다. 두 경우 모두 데이터는 시간이 지남에 따라 변경되지 않으므로 무작위 분할은 문제를 일으키지 않습니다.
데이터 그룹화
테스트 세트는 학습 데이터 세트와 너무 유사합니다. 유사한 데이터 클러스터가 두 세트에 모두 있기 때문입니다. 모델이 예측보다 성능이 뛰어난 것으로 나타납니다.
버스트가 있는 데이터 (연속 스트림이 아닌 간헐적으로 버스트가 발생하는 데이터)
유사한 데이터의 클러스터 (버스트)가 학습 및 테스트 모두에 표시됩니다. 모델이 새 데이터를 사용하는 것보다 테스트에서 더 나은 예측을 수행합니다.