단순성을 위한 정규화: 이해도 확인

L2 정규화

아래 옵션을 살펴보세요.

100개의 입력 특성이 있는 선형 모델을 떠올려 보세요.
  • 10은 매우 유익합니다.
  • 90개는 사용자에게 도움이 되지 않습니다.
  • 모든 특성의 값이 -1과 1 사이라고 가정합니다. 다음 중 올바른 설명은 무엇인가요?
    L2 정규화는 많은 유용하지 않은 가중치가 (정확히는 아니지만) 0.0에 가까워지도록 유도합니다.
    예, L2 정규화는 가중치가 0.0에 가까워지도록 유도하지만 정확히 0.0이 되지는 않습니다.
    L2 정규화는 대부분의 유용하지 않은 가중치가 정확히 0.0이 되도록 유도합니다.
    L2 정규화는 가중치가 정확히 0.0이 되도록 강제하는 경향이 없습니다. L2 정규화는 작은 가중치보다 큰 가중치에 더 페널티를 적용합니다. 가중치가 0.0에 가까워지면 L2는 0.0을 향해 덜 강하게 '밀어붙입니다'.
    L2 정규화로 인해 모델이 일부 유용하지 않은 특성에 대해 중간 가중치를 학습하게 될 수 있습니다.
    놀랍게도 유용하지 않은 특성이 라벨과 상관관계가 있을 때 이러한 상황이 발생할 수 있습니다. 이 경우 모델이 이러한 유용하지 않은 특성에 정보를 제공하는 특성에 할당되어야 하는 '크레딧'의 일부를 잘못 부여합니다.

    L2 정규화와 상관 특성

    아래 옵션을 살펴보세요.

    밀접한 상관관계가 있는 두 특성이 있는 선형 모델을 떠올려 보세요. 이 두 특성은 서로 거의 동일하지만 한 특성에는 소량의 임의의 노이즈가 포함되어 있습니다. L2 정규화를 사용해 이 모델을 학습시키면 이 두 특성의 가중치는 어떻게 될까요?
    두 특성은 대체로 동등한 적정 가중치를 갖게 됩니다.
    L2 정규화는 두 특성 중 하나만 모델에 포함되었을 경우의 약 절반에 해당하는 거의 동일한 가중치로 특성을 강제합니다.
    한 특성은 큰 가중치를 갖게 되고 다른 하나는 0.0에 거의 0.0의 가중치를 갖게 됩니다.
    L2 정규화는 작은 가중치보다 큰 가중치에 더 페널티를 적용합니다. 따라서 한 가중치가 다른 가중치보다 더 빨리 떨어지기 시작하더라도 L2 정규화는 큰 가중치가 작은 가중치보다 더 빨리 떨어지도록 강제합니다.
    한 특성은 큰 가중치를 갖게 되고 다른 하나는 정확히 0.0의 가중치를 갖게 됩니다.
    L2 정규화가 가중치를 정확히 0.0이 되도록 강제하는 경우는 드뭅니다. 반대로 L1 정규화(나중에 설명)는 가중치가 정확히 0.0이 되도록 강제합니다.