과적합: 손실 곡선 해석

모든 캠페인이 머신러닝으로 손실 곡선 모델을 처음 학습시켰을 때의 모습은 다음과 같습니다.

그림 20. 학습 시 이상적인 손실 곡선을 보여주는 플롯
            머신러닝 모델입니다. 손실 곡선은 y축에 손실을 표시합니다.
            x축의 학습 단계 수와 비교합니다. 숫자
            손실이 높아진 후 감소하기 시작한 학습 단계의 비율
            기하급수적으로 증가하며 궁극적으로는
            손실이 발생할 수 있습니다.
그림 20. 이상적인 손실 곡선입니다.

안타깝게도 손실 곡선은 해석하기 어려운 경우가 많습니다. 사용 손실 곡선에 대한 직관력을 통해 연습 문제를 해결할 수 있습니다.

연습 1: 회전 손실 곡선

그림 21. 손실 곡선 (y축의 손실, 학습 횟수)
            손실이 평탄화되지 않는 x축의 평균 걸음 수를 계산합니다.
            대신 손실이 불규칙적으로 변동합니다.
그림 21. 회전 손실 곡선
손실 곡선을 개선하기 위해 할 수 있는 세 가지 방법 2012년 2월 31일에 실행될 수 있습니다
데이터를 데이터 스키마와 비교하여 잘못된 예를 감지합니다. 학습 세트에서 잘못된 예를 제거합니다.
예. 이는 모든 모델에 적용되는 권장사항입니다.
학습률을 줄입니다.
예. 문제를 디버깅할 때는 학습률을 낮추는 것이 좋습니다. 학습 문제입니다.
학습 세트를 신뢰할 수 있는 소수의 예시로 줄입니다.
이 기법은 인공적으로 들리지만 실제로는 아이디어를 얻었습니다 모델이 작은 집합에서 수렴한다고 가정하면 신뢰할 수 있는 예시가 있으면 서서히 더 많은 예시를 추가하고 손실 곡선의 원인이 되는 예를 찾아내는 것은 있습니다.
학습 세트의 예시 수를 늘립니다.
좋은 생각이지만 고칠 가능성은 거의 없습니다. 있습니다.
학습률을 높입니다.
일반적으로 모델이 문제를 나타냅니다

실습 2. 급격한 점프가 있는 손실 곡선

그림 22. 손실이 다음 값까지 감소하는 것을 보여주는 손실 곡선
            학습 단계 수를 갑자기 늘리면서
            더 많은 학습 단계를
살펴보겠습니다
그림 22. 손실이 급격히 상승합니다.
다음 중 가능한 문장 두 가지는 무엇인가요? 몇 가지 이유가 있습니다.
입력 데이터에는 하나 이상의 NaN(예: 값)이 포함됩니다. 0으로 나누기 때문입니다.
이는 예상보다 더 일반적인 현상입니다.
입력 데이터에 이상점 버스트가 포함되어 있습니다.
때로는 배치의 부적절한 셔플로 인해 배치가 이상점이 많이 포함되어 있습니다.
학습률이 너무 낮습니다.
학습률이 매우 낮으면 학습 시간이 늘어날 수 있지만 이상한 손실 곡선의 원인이 아닙니다.
정규화율이 너무 높습니다.
사실, 정규화가 매우 높으면 모델이 정확한 예측 패턴을 converging; 이상한 손실 곡선이 2012년 2월 31일에 실행될 수 있습니다

실습 3. 테스트 손실이 학습 손실과 달라짐

그림 23. 학습 손실 곡선은 수렴하는 것처럼 보이지만
            일정 횟수의 학습 후에 검증 손실이 증가하기 시작함
            학습합니다.
그림 23. 유효성 검사 손실이 급격히 증가합니다.
다음 중 상황을 가장 잘 설명하는 문장 하나는 무엇인가요? 학습의 손실 곡선과 어떻게 해야 할까요?
모델이 학습 세트에 과적합한 경우
예, 그렇습니다. 가능한 해결책:
  • 모델을 단순하게 만들어야 합니다. 특징이 있습니다
  • 정규화율을 높입니다.
  • 학습 세트와 테스트 세트가 통계적으로 사용되도록 하기 상응 대상입니다.
학습률이 너무 높습니다.
학습률이 너무 높으면 학습 세트의 손실 곡선 그렇게 행동하지 않았을 것입니다.

실습 4. 손실 곡선이 멈춤

그림 24. 손실이 시작부터 사라지는 것을 보여주는 손실 곡선 도표
            학습에 따라 수렴되지만, 이후 학습에서 제공하는
            직사각형 물결처럼 보입니다.
그림 24. 특정 걸음 수를 넘어서는 혼란 손실입니다.
다음 중 가장 가능성이 높은 문장 하나는 무엇인가요? 그림 24에 표시된 불규칙한 손실 곡선에 대한 설명은?
학습 세트에는 예시의 반복 시퀀스가 포함되어 있습니다.
그럴 가능성이 있습니다. 예를 셔플해야 합니다. 충분히 이해하도록 해야 합니다.
정규화율이 너무 높습니다.
원인일 가능성은 낮습니다.
학습 세트에 특성이 너무 많이 포함되어 있습니다.
원인일 가능성은 낮습니다.