데이터 세트: 불균형 데이터 세트

값이 긍정 또는 부정. 균형 데이터 세트에서 양성의 수는 음성 라벨은 거의 같습니다 그러나 하나의 라벨이 데이터 세트는 불균형입니다. 불균형 데이터 세트의 주요 라벨을 주요 집단 덜 흔한 라벨을 다수 범주.

다음 표는 일반적으로 허용되는 이름과 범위를 제공합니다. 다양한 수준의 불균형:

소수 클래스에 속하는 데이터의 비율 불균형의 정도
데이터 세트의 20~40% 약간
데이터 세트의 1~20% 보통
데이터 세트의 1% 미만 익스트림

예를 들어 소수 클래스가 포함된 바이러스 감지 데이터 세트를 은 데이터 세트의 0.5% 를 나타내고 다수 클래스는 99.5%를 나타냅니다. 이와 같이 극도로 불균형한 데이터 세트는 의학에서 흔히 볼 수 있는데, 대부분의 실험 대상은 바이러스가 없을 것입니다.

그림 5. 막대가 2개인 막대 그래프입니다. 하나의 막대는 200개 정도의
            네거티브 클래스 다른 막대는 양성 클래스 1개를 보여줍니다.
그림 5. 데이터 세트가 극도로 불균형합니다.

 

불균형 데이터 세트에는 소수 클래스가 충분히 포함되지 않는 경우가 있음 모델을 올바르게 학습시키는 데 도움이 됩니다. 즉, 양성 라벨이 별로 없기 때문에 모델은 거의 양성 라벨에 대해 충분히 학습할 수 없는 경우입니다. 예를 들어 배치 크기가 50이면 많은 배치에 양성 라벨이 포함되지 않습니다.

종종 약간 불균형하거나 다소 불균형한 경우 불균형은 문제가 되지 않습니다 따라서 먼저 학습하도록 할 수 있습니다 모델이 잘 작동하면 완료된 것입니다. 그렇지 않다면 적어도 차선 모델은 향후 실험을 위한 기준을 따릅니다. 그런 후 다음 기법을 시도하여 문제를 해결할 수 있습니다. 데이터 세트가 있을 수 있습니다

다운샘플링 및 가중치 업

불균형 데이터 세트를 처리하는 한 가지 방법은 데이터 세트를 과반수 클래스로 간주됩니다. 새로운 두 가지 용어의 정의는 다음과 같습니다.

  • 다운샘플링 (여기서는) 대다수 클래스의 불균형적으로 낮은 하위 집합으로 학습하는 것을 의미합니다. 예로 들 수 있습니다
  • 가중치 상향 조정은 가중치를 다운샘플링된 클래스로 다운샘플링됩니다.

1단계: 다수 집단을 다운샘플링 다음 사항을 고려하세요. 음성 200개당 양성 라벨 1개 비율이 있는 바이러스 데이터 세트 라벨을 지정합니다 다운샘플링은 20은 균형을 양수 값 1개에서 10개 (10%)로 개선합니다. 비록 학습 세트의 비율이 여전히 약간 불균형합니다. 원본의 극도로 불균형한 측정항목보다 0.5%로 제한했습니다.

그림 6. 막대가 2개인 막대 그래프입니다. 막대 1개는 음수 값 20을 표시합니다.
            클래스; 다른 막대는 양성 클래스 1개를 보여줍니다.
그림 6. 다운샘플링

 

2단계: 다운샘플링된 클래스 가중치 높이기: 예시 추가 다운샘플링된 클래스에 가중치를 적용합니다 20의 배수만큼 다운샘플링하면 예시 가중치는 20이어야 합니다. (맞습니다. 직관적이지 않아 보일 수 있지만 나중에 설명)

그림 7. 다운샘플링과 가중치 상향 조정을 보여주는 2단계 다이어그램
            1단계: 다운샘플링은 다수의 데이터에서 무작위 예시를 추출합니다.
            클래스에 대해 자세히 알아보세요. 2단계: 가중치 상향 조정은 다운샘플링된 데이터에 가중치를 추가함
            예로 들 수 있습니다
그림 7. 가중치 상향 조정.

 

가중치라는 용어는 모델 매개변수 (예: w1 또는 w2). 여기에서 가중치예시 가중치: 개별 예시의 중요도를 높입니다. 학습합니다. 예시 가중치 10은 모델이 예시를 손실 계산 시 10배 더 중요하다고 가중치 1.

가중치는 다운샘플링에 사용한 계수와 같아야 합니다.

\[\text{ \{example weight\} = \{original example weight\} × \{downsampling factor\} }\]

다운샘플링 후에 예시 가중치를 추가하는 것이 이상하게 보일 수 있습니다. 결국 여러분은 모델이 소수 범주에서 개선되도록 하려고 합니다. 그렇다면 가중치를 가중치를 높여 다수 집단에 속하는가요? 실제로 다수 범주의 가중치를 높이면 예측 편향과 같습니다. 즉, 다운샘플링 후 업가중치를 부여하면 평균값 사이의 델타가 감소하는 경향이 있음 모델의 예측과 데이터 세트 라벨의 평균입니다.

재조정 비율

데이터 세트를 재조정하기 위해 얼마나 다운샘플링하고 가중치를 높여야 하나요? 답을 결정하려면 재조정 비율을 실험해야 합니다. 다른 애널리스트와 함께 실험하는 것처럼 초매개변수: 하지만 이 답은 궁극적으로 다음과 같은 요인에 따라 달라집니다.

  • 배치 크기
  • 불균형 비율
  • 학습 세트에 포함된 예시의 수

각 배치에 여러 개의 소수 클래스 예가 포함되는 것이 이상적입니다. 소수 클래스가 충분하지 않은 배치는 학습 성능이 저하됩니다. 배치 크기는 불균형 비율보다 몇 배 더 커야 합니다. 예를 들어 불균형 비율이 100:1이면 배치 크기는 500 이상이어야 합니다.

연습문제: 학습 내용 점검하기

다음 상황을 고려해보세요.

  • 배치 크기는 128입니다.
  • 불균형 비율은 100:1입니다.
  • 학습 세트에는 10억 개의 예시가 포함되어 있습니다.
다음 중 올바른 설명은 무엇인가요?
배치 크기를 1,024로 늘리면 있습니다.
배치 크기가 1,024라면 각 배치의 평균은 약 10 이는 학습에 충분해야 합니다. 다운샘플링을 하지 않으면 학습 세트에 1을 계속 포함합니다. 10억 개의 예시가 있습니다.
배치 크기를 유지하면서 20:1로 다운샘플링 (및 가중치 추가) 128로 설정하면 결과 모델이 개선됩니다
각 배치는 평균 약 9개의 소수 클래스 예를 학습에 충분합니다 다운샘플링은 실질적으로 학습 세트의 예시 수를 10억 개에서 10억 개까지 4,000만 명.
현재 상황은 괜찮습니다.
대부분의 배치에는 유용한 함수를 학습시키기에 충분한 소수 클래스가 포함되지 않습니다. 있습니다.