Os desenvolvedores de modelos ajustam o impacto geral do termo de regularização multiplicando o valor dele por um escalar conhecido como lambda, também chamado de taxa de regularização (link em inglês). Ou seja, o objetivo dos desenvolvedores de modelos é fazer o seguinte:
Realizar a regularização L2 tem o seguinte efeito em um modelo:
- Incentiva valores de peso a 0 (mas não exatamente 0)
- Incentiva a média dos pesos em direção a 0, com uma distribuição normal (em forma de sino ou gaussiana).
Aumentar o valor de lambda fortalece o efeito de regularização. Por exemplo, o histograma de pesos para um valor alto de lambda pode ficar como mostrado na Figura 2.
Figura 2. Histograma de pesos.
A redução do valor da lambda tende a produzir um histograma mais plano, como mostrado na Figura 3.
Figura 3. Histograma de pesos produzidos por um valor de lambda menor.
Ao escolher um valor de lambda, o objetivo é encontrar o equilíbrio certo entre simplicidade e ajuste dos dados de treinamento:
Se o valor da lambda for muito alto, o modelo será simples, mas você corre o risco de subajustar os dados. Seu modelo não aprenderá o suficiente sobre os dados de treinamento para fazer previsões úteis.
Se o valor da lambda for muito baixo, o modelo será mais complexo, e você corre o risco de overfitting os dados. Seu modelo aprenderá muito sobre as particularidades dos dados de treinamento e não poderá generalizar para novos dados.
O valor ideal de lambda produz um modelo que generaliza bem para dados novos e ainda não vistos. Infelizmente, esse valor ideal de lambda depende dos dados, então é necessário fazer alguns ajustes de .