과적합: L2 정규화

L2 정규화 는 다음 공식을 사용하는 인기 있는 정규화 측정항목입니다.

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

예를 들어 다음 표는 가중치가 6개인 모델의 L2 정규화 계산을 보여줍니다.

제곱값
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = 합계

0에 가까운 가중치는 L2 정규화 에 큰 영향을 미치지 않지만 큰 가중치는 큰 영향을 미칠 수 있습니다. 예를 들어 앞의 계산에서 다음이 적용됩니다.

  • 단일 가중치 (w3)가 총 복잡성의 약 93% 를 차지합니다.
  • 다른 5개의 가중치는 총 복잡성의 약 7% 만 차지합니다.

L2 정규화는 가중치를 0으로 유도 하지만 가중치를 0으로 완전히 푸시하지는 않습니다.

연습: 학습 내용 점검하기

모델을 학습하는 동안 L2 정규화를 사용하는 경우 모델의 전반적인 복잡성은 일반적으로 어떻게 되나요?
시스템의 전반적인 복잡성이 감소할 가능성이 높습니다.
L2 정규화는 가중치를 0으로 유도하므로 전반적인 복잡성이 감소할 가능성이 높습니다.
모델의 전반적인 복잡성은 일정하게 유지될 가능성이 높습니다.
가능성이 매우 낮습니다.
모델의 전반적인 복잡성이 증가할 가능성이 높습니다.
가능성이 낮습니다. L2 정규화는 가중치를 0으로 유도한다는 점을 기억하세요.
모델을 학습하는 동안 L2 정규화를 사용하는 경우 일부 특성이 모델에서 삭제됩니다.
L2 정규화는 일부 가중치를 매우 작게 만들 수 있지만 가중치를 0으로 완전히 푸시하지는 않습니다. 따라서 모든 특성은 모델에 계속 기여합니다.
거짓
L2 정규화는 가중치를 0으로 완전히 푸시하지 않습니다.

정규화율 (람다)

앞서 언급했듯이 학습은 손실과 복잡성의 조합을 최소화하려고 시도합니다.

$$\text{minimize(loss} + \text{ complexity)}$$

모델 개발자는 복잡성이 모델 학습에 미치는 전반적인 영향을 조정합니다. 값을 정규화율이라는 스칼라로 곱하여 그리스 문자 람다는 일반적으로 정규화율을 상징합니다.

즉, 모델 개발자는 다음을 목표로 합니다.

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

높은 정규화율:

  • 정규화의 영향을 강화하여 과적합 가능성을 줄입니다.
  • 다음과 같은 특성을 갖는 모델 가중치의 히스토그램을 생성하는 경향이 있습니다.
    • 정규 분포
    • 평균 가중치 0

낮은 정규화율:

  • 정규화의 영향을 낮춰 과적합 가능성을 높입니다.
  • 균일한 분포를 갖는 모델 가중치의 히스토그램을 생성하는 경향이 있습니다.

예를 들어 높은 정규화율의 모델 가중치 히스토그램은 그림 18과 같이 표시될 수 있습니다.

그림 18. 평균이 0이고 정규 분포를 갖는 모델의 가중치 히스토그램
그림 18. 높은 정규화율의 가중치 히스토그램 평균은 0입니다. 정규 분포

 

반대로 낮은 정규화율은 그림 19와 같이 더 평평한 히스토그램을 생성하는 경향이 있습니다.

그림 19: 평탄한 분포와 정규 분포 사이에 있는 평균이 0인 모델의 가중치 히스토그램입니다.
그림 19. 낮은 정규화율의 가중치 히스토그램 평균은 0일 수도 있고 아닐 수도 있습니다.

 

정규화율 선택

이상적인 정규화율은 이전에 본 적 없는 새로운 데이터에 잘 일반화되는 모델을 생성합니다. 아쉽게도 이상적인 값은 데이터에 따라 다르므로 수동 또는 자동으로 미세 조정.

조기 중단: 복잡성 기반 정규화의 대안

조기 중단은 복잡성 계산을 포함하지 않는 정규화 메서드입니다. 대신 조기 중단은 모델이 완전히 수렴되기 전에 학습을 종료하는 것을 의미합니다. 예를 들어 검증 세트의 손실 곡선이 증가하기 시작하면 (기울기가 양수가 됨) 학습을 종료합니다.

조기 중단은 일반적으로 학습 손실을 증가시키지만 테스트 손실을 줄일 수 있습니다.

조기 중단은 빠르지만 최적은 아닌 정규화 형태입니다. 결과 모델은 이상적인 정규화율로 철저히 학습된 모델만큼 좋지 않을 가능성이 높습니다.

학습률과 정규화율 간의 평형 찾기

학습률과 정규화율은 가중치를 반대 방향으로 이동시키는 경향이 있습니다. 높은 학습률은 가중치를 0에서 멀리 끌어당기고 높은 정규화율은 가중치를 0으로 푸시 합니다.

정규화율이 학습률에 비해 높으면 약한 가중치는 예측이 좋지 않은 모델을 생성하는 경향이 있습니다. 반대로 학습률이 정규화율에 비해 높으면 강한 가중치는 과적합 모델을 생성하는 경향이 있습니다.

목표는 학습률과 정규화율 간의 평형을 찾는 것입니다. 이는 어려울 수 있습니다. 무엇보다도 찾기 어려운 균형을 찾은 후에는 궁극적으로 학습률을 변경해야 할 수도 있습니다. 학습률을 변경하면 이상적인 정규화율을 다시 찾아야 합니다.