과적합: L2 정규화

L₂ 정규화는 다음 수식을 사용하는 인기 있는 정규화 측정항목입니다.

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

예를 들어 다음 표는 가중치가 6개인 모델의 L₂ 정규화 계산을 보여줍니다.

	값	제곱 값
w₁	0.2	0.04
w₂	-0.5	0.25
w₃	5.0	25.0
w₄	-1.2	1.44
w₅	0.3	0.09
w₆	-0.1	0.01
		26.83 = 총액

0에 가까운 가중치는 L₂ 정규화에 큰 영향을 미치지 않지만 큰 가중치는 큰 영향을 미칠 수 있습니다. 예를 들어 위의 계산에서

단일 가중치 (w₃)가 전체 복잡도의 약 93% 를 차지합니다.
나머지 5개의 가중치는 총 복잡성의 약 7% 만 차지합니다.

L₂ 정규화는 가중치를 0 쪽으로 유도하지만 가중치를 0으로 완전히 푸시하지는 않습니다.

연습문제: 이해도 확인

모델을 학습하는 동안 L₂ 정규화를 사용하면 일반적으로 모델의 전반적인 복잡도는 어떻게 되나요?

시스템의 전반적인 복잡성이 줄어들 가능성이 높습니다.

L₂ 정규화는 가중치가 0에 가까워지도록 유도하므로 전반적인 복잡도가 줄어들 수 있습니다.

모델의 전반적인 복잡도는 일정하게 유지될 수 있습니다.

이러한 일은 매우 드뭅니다.

모델의 전반적인 복잡성이 증가할 수 있습니다.

가능성이 낮습니다. L₂ 정규화는 가중치가 0에 가까워지도록 유도합니다.

모델을 학습하는 동안 L₂ 정규화를 사용하면 일부 특성이 모델에서 삭제됩니다.

참

L₂ 정규화로 인해 일부 가중치가 매우 작아질 수 있지만, 가중치가 0이 되지는 않습니다. 따라서 모든 특성이 여전히 모델에 기여합니다.

거짓

L₂ 정규화는 가중치를 0으로 전혀 낮추지 않습니다.

정규화율 (람다)

앞서 언급한 바와 같이 학습은 손실과 복잡성의 조합을 최소화하려고 시도합니다.

$$\text{minimize(loss} + \text{ complexity)}$$

모델 개발자는 값에 정규화 비율이라는 스칼라를 곱하여 모델 학습에 미치는 복잡성의 전반적인 영향을 조정합니다. 그리스 문자 람다는 일반적으로 정규화 비율을 나타냅니다.

즉, 모델 개발자는 다음을 목표로 합니다.

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

정규화율이 높으면 다음과 같은 이점이 있습니다.

정규화의 영향을 강화하여 오버피팅 가능성을 줄입니다.
다음과 같은 특성을 가진 모델 가중치의 히스토그램을 생성하는 경향이 있습니다.
- 정규 분포
- 평균 가중치 0

낮은 정규화율:

정규화의 영향을 줄여 오버피팅 가능성이 높아집니다.
평탄한 분포를 가진 모델 가중치 히스토그램을 생성하는 경향이 있습니다.

예를 들어 높은 정규화 비율의 모델 가중치 히스토그램은 그림 18과 같이 표시될 수 있습니다.

그림 18. 평균이 0이고 정규 분포인 모델 가중치의 히스토그램 — **그림 18.** 높은 정규화율의 가중치 히스토그램 평균은 0입니다. 정규 분포

반대로 정규화 비율이 낮으면 히스토그램이 더 평평해지는 경향이 있습니다(그림 19 참고).

그림 19: 평탄 분포와 정규 분포 사이의 평균 0인 모델 가중치의 히스토그램 — **그림 19.** 낮은 정규화율의 가중치 히스토그램 평균은 0일 수도 있고 아닐 수도 있습니다.

정규화율 선택

이상적인 정규화 비율은 이전에 보지 못한 새로운 데이터에 잘 일반화되는 모델을 생성합니다. 안타깝게도 이 이상적인 값은 데이터에 따라 달라지므로 수동 또는 자동으로 조정

조기 중단: 복잡도 기반 정규화의 대안

조기 중단은 복잡도 계산이 포함되지 않은 정규화 방법입니다. 대신 조기 중단은 모델이 완전히 수렴하기 전에 학습을 종료하는 것을 의미합니다. 예를 들어 검증 세트의 손실 곡선이 증가하기 시작하면 (기울기가 양수) 학습을 종료합니다.

조기 중단은 일반적으로 학습 손실을 증가시키지만 테스트 손실을 줄일 수 있습니다.

조기 중단은 빠르지만 최적화되는 경우가 거의 없는 정규화 방법입니다. 이렇게 얻은 모델은 이상적인 정규화 비율로 철저하게 학습된 모델만큼 좋을 가능성이 매우 낮습니다.

학습률과 정규화율 간의 균형 찾기

학습률과 정규화율은 가중치를 서로 반대 방향으로 당기는 경향이 있습니다. 학습률이 높으면 가중치가 0에서 멀어지게 됩니다. 정규화율이 높으면 가중치가 0으로 수렴합니다.

정규화율이 학습률에 비해 높으면 약한 가중치가 잘못된 예측을 하는 모델을 생성하는 경향이 있습니다. 반대로 정규화율에 비해 학습률이 높은 경우 강한 가중치가 과적합 모델을 생성하는 경향이 있습니다.

학습률과 정규화율 간의 균형을 찾는 것이 목표입니다. 이는 쉽지 않을 수 있습니다. 최악의 경우, 찾기 어려운 균형을 찾은 후에도 결국 학습률을 변경해야 할 수 있습니다. 학습률을 변경하면 이상적인 정규화 비율을 다시 찾아야 합니다.

모델 복잡도 (10분)

손실 곡선 해석 (10분)