과적합: 손실 곡선 해석

모든 손실 곡선이 모델을 처음 학습할 때 다음과 같이 표시되면 머신러닝이 훨씬 간단해질 것입니다.

안타깝게도 손실 곡선을 해석하기란 쉽지 않습니다. 손실 곡선에 대한 직관을 바탕으로 이 페이지의 연습문제를 풀어보세요.

연습 1: 흔들리는 손실 곡선

그림 21에 표시된 손실 곡선을 개선하기 위해 취할 수 있는 조치는 세 가지가 무엇인가요?

데이터를 데이터 스키마와 대조하여 잘못된 예시를 감지한 다음 학습 세트에서 잘못된 예시를 삭제합니다.

예, 모든 모델에 적용하는 것이 좋습니다.

학습률을 낮춥니다.

예. 학습 문제를 디버그할 때는 학습률을 줄이는 것이 좋습니다.

학습 세트를 신뢰할 수 있는 소수의 예시로 줄입니다.

이 기법은 인위적으로 들리지만 실제로는 좋은 아이디어입니다. 모델이 소수의 신뢰할 수 있는 예시로 수렴한다고 가정하면 점진적으로 더 많은 예시를 추가하여 손실 곡선이 진동하는 예시를 찾을 수 있습니다.

학습 세트의 예시 수를 늘립니다.

이는 매력적인 생각이지만 문제를 해결할 가능성은 매우 낮습니다.

학습률을 높입니다.

일반적으로 모델의 학습 곡선이 문제를 나타내는 경우에는 학습률을 높이지 않는 것이 좋습니다.

다음 설명 중 그림 22에 표시된 손실이 급증한 원인을 가장 잘 설명하는 두 가지는 무엇인가요?

입력 데이터에 NaN이 하나 이상 포함되어 있습니다(예: 0으로 나눗셈으로 인한 값).

이는 생각보다 흔한 문제입니다.

입력 데이터에 급격한 외부값이 포함되어 있습니다.

배치가 부적절하게 셔플되어 배치에 외부값이 많이 포함되는 경우도 있습니다.

학습률이 너무 낮습니다.

학습률이 매우 낮으면 학습 시간이 늘어날 수 있지만 이상한 손실 곡선의 원인은 아닙니다.

정규화율이 너무 높습니다.

사실 정규화가 너무 높으면 모델이 수렴하지 않을 수 있지만, 그림 22와 같은 이상한 손실 곡선은 발생하지 않습니다.

다음 중 학습 세트와 테스트 세트의 손실 곡선 간에 이러한 차이가 발생하는 이유를 가장 잘 설명하는 문장은 무엇인가요?

모델이 학습 세트에 과적합합니다.

예, 맞을 수 있습니다. 해결 방법은 다음과 같습니다.

학습률이 너무 높습니다.

학습률이 너무 높으면 학습 세트의 손실 곡선이 이와 같이 동작하지 않았을 수 있습니다.

다음 설명 중 그림 24에 표시된 불규칙한 손실 곡선을 가장 잘 설명하는 항목은 무엇인가요?

학습 세트가 제대로 셔플되지 않았습니다.

이러한 가능성은 있습니다. 예를 들어 개 이미지 100개와 고양이 이미지 100개가 연속으로 포함된 학습 세트를 사용하면 모델이 학습할 때 손실이 오실레이션할 수 있습니다. 예시를 충분히 셔플해야 합니다.

정규화율이 너무 높습니다.

이로 인해 문제가 발생할 가능성은 낮습니다.

학습 세트에 너무 많은 특징이 포함되어 있습니다.

이로 인해 문제가 발생할 가능성은 낮습니다.