과적합: L2 정규화

L2 정규화 은 다음 공식을 사용하는 널리 사용되는 정규화 측정항목입니다.

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

예를 들어, 다음 표는 L2의 계산을 보여줍니다. 6개의 가중치를 갖는 모델의 정규화:

제곱 값
1 0.2 0.04
2 -0.5 0.25
3 5.0 25.0
4 -1.2 1.44
5 0.3 0.09
6 -0.1 0.01
    26.83 = 합계

0에 가까운 가중치는 L2 정규화에 영향을 미치지 않음 가중치가 크면 큰 영향을 미칠 수 있습니다. 예를 들어 이전 계산:

  • 단일 가중치 (w3)는 총 복잡도입니다.
  • 나머지 5개의 가중치는 총합이 총 복잡도입니다.

L2 정규화는 가중치를 0 쪽으로 유도하지만 푸시하지 않음 가중치를 0까지 조정합니다.

연습문제: 이해도 확인

모델을 학습시키는 동안 L2 정규화를 사용하는 경우 일반적으로 모델의 전반적인 복잡성이 발생할까요?
시스템의 전반적인 복잡성은 줄어들게 됩니다.
L2 정규화는 가중치를 0으로 유도하므로 전반적인 복잡성이 줄어들 것입니다
모델의 전반적인 복잡성은 아마도 그대로 유지될 것입니다. 상수입니다.
그럴 가능성은 거의 없습니다.
모델의 전반적인 복잡성이 증가할 수 있습니다.
그럴 가능성은 드뭅니다. L2 정규화는 가중치를 0으로 끌어올립니다.
모델을 학습시키는 동안 L2 정규화를 사용하면 모델에서 일부 특성이 삭제됩니다.
L2 정규화는 일부 가중치를 작으면 어떤 가중치도 0으로 푸시하지 않습니다. 따라서 모든 특성은 여전히 있습니다.
거짓
L2 정규화는 가중치를 끝까지 있습니다.

정규화율 (람다)

앞서 언급했듯이 학습은 손실과 복잡성의 조합을 최소화하려고 합니다.

$$\text{minimize(loss} + \text{ complexity)}$$

모델 개발자는 복잡성이 모델 학습에 미치는 전반적인 영향을 조정합니다. 스칼라를 곱하여 정규화율. 그리스 문자 람다는 일반적으로 정규화율을 상징합니다.

즉, 모델 개발자는 다음을 수행하는 것을 목표로 합니다.

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

높은 정규화율:

  • 정규화의 영향을 강화하여 정규화의 과적합입니다.
  • 다음과 같은 모델 가중치 히스토그램을 생성하는 경향이 있습니다. 특징: <ph type="x-smartling-placeholder">
      </ph>
    • 정규 분포
    • 평균 가중치 0

낮은 정규화율:

  • 정규화의 영향을 줄여 정규화의 과적합입니다.
  • 분포가 평평한 모델 가중치 히스토그램을 생성하는 경향이 있습니다.

예를 들어 정규화율이 높은 경우 모델 가중치 히스토그램은 그림 18과 같이 표시될 수 있습니다.

그림 18. 모델의 가중치에 대한 히스토그램(평균이 0과
            나타냅니다.
그림 18. 높은 정규화율을 위한 가중치 히스토그램 평균이 0입니다. 정규 분포입니다.

 

반대로 정규화율이 낮으면 다음과 같이 보다 평평한 히스토그램이 생성되는 경향이 있습니다. 이는 그림 19와 같습니다.

그림 19. 모델의 가중치에 대한 히스토그램(평균이 0인 경우)
            평평한 분포와 정상 분포 사이의 어딘가에
            배포되었습니다.
그림 19. 낮은 정규화율을 위한 가중치 히스토그램 평균은 0일 수도 있고 0이 아닐 수도 있습니다.

 

정규화율 선택하기

이상적인 정규화율은 다음 조건에 잘 맞도록 일반화되는 모델을 새로운 데이터를 얻을 수 있습니다. 불행히도 그 이상적인 값은 데이터에 의존하므로 따라서 몇 가지 있습니다.

조기 중단: 복잡도 기반 정규화의 대안

조기 중단은 복잡도 계산을 수반하지 않는 정규화 방법입니다. 대신, 조기 중단은 단순히 모델이 학습하기 전에 학습을 종료하는 것입니다. 수렴합니다. 예를 들어 손실 곡선이 증가하기 시작할 때 (경사가 양수가 됨)

조기 중단은 일반적으로 학습 손실을 증가시키지만 감소시킬 수 있습니다. 테스트 손실을 방지합니다.

조기 중단은 빠르지만 최적의 정규화 형태입니다. 결과 모델은 학습된 모델만큼 우수할 가능성이 매우 낮습니다. 자세히 알아보겠습니다.

학습률과 정규화율 사이의 평형 찾기

학습률 및 정규화율은 일반적으로 있습니다. 학습률이 높으면 종종 가중치가 0에서 멀어집니다. 정규화율이 높으면 가중치를 0으로 향하여 이동합니다.

정규화율이 학습률에 비해 높으면 약한 가중치는 부정확한 예측을 하는 모델을 생성하는 경향이 있습니다. 반대로 정규화에 비해 학습률이 높으면 강력한 가중치가 과적합 모델을 생성하는 경향이 있습니다.

목표는 학습률과 학습률 사이의 정규화율(정규화율)입니다. 이는 어려운 일일 수 있습니다. 무엇보다도, 당신이 찾고 있는 것을 결국 학습률을 변경해야 할 수도 있습니다. 또한 학습률을 변경하면 다시 가장 적합한 학습률을 정규화율(정규화율)입니다.