Uma versão nova e aprimorada do curso intensivo de machine learning vai ser lançada em agosto de 2024. Não perca as novidades!

Esta página foi traduzida pela API Cloud Translation.

Regularização para simplicidade: lambda

Os desenvolvedores de modelos ajustam o impacto geral do termo de regularização multiplicando o valor dele por um escalar conhecido como lambda, também chamado de taxa de regularização (link em inglês). Ou seja, o objetivo dos desenvolvedores de modelos é fazer o seguinte:

$$\text{minimize(Loss(Data|Model)} + \lambda \text{ complexity(Model))}$$

Realizar a regularização L₂ tem o seguinte efeito em um modelo:

Incentiva valores de peso a 0 (mas não exatamente 0)
Incentiva a média dos pesos em direção a 0, com uma distribuição normal (em forma de sino ou gaussiana).

Aumentar o valor de lambda fortalece o efeito de regularização. Por exemplo, o histograma de pesos para um valor alto de lambda pode ficar como mostrado na Figura 2.

Histograma dos pesos de um modelo com média zero e distribuição normal.

Figura 2. Histograma de pesos.

A redução do valor da lambda tende a produzir um histograma mais plano, como mostrado na Figura 3.

Histograma dos pesos de um modelo com média zero, que está entre uma distribuição plana e uma distribuição normal.

Figura 3. Histograma de pesos produzidos por um valor de lambda menor.

Ao escolher um valor de lambda, o objetivo é encontrar o equilíbrio certo entre simplicidade e ajuste dos dados de treinamento:

Se o valor da lambda for muito alto, o modelo será simples, mas você corre o risco de subajustar os dados. Seu modelo não aprenderá o suficiente sobre os dados de treinamento para fazer previsões úteis.
Se o valor da lambda for muito baixo, o modelo será mais complexo, e você corre o risco de overfitting os dados. Seu modelo aprenderá muito sobre as particularidades dos dados de treinamento e não poderá generalizar para novos dados.

O valor ideal de lambda produz um modelo que generaliza bem para dados novos e ainda não vistos. Infelizmente, esse valor ideal de lambda depende dos dados, então é necessário fazer alguns ajustes de .

Clique no ícone de adição para saber mais sobre a regularização e a taxa de aprendizado L₂.

Há uma conexão estreita entre a taxa de aprendizado e o lambda. Valores fortes de regularização L₂ tendem a aumentar os pesos dos atributos mais próximos de 0. Taxas de aprendizado mais baixas (com parada antecipada) geralmente produzem o mesmo efeito, porque as etapas que faltam de 0 não são tão grandes. Consequentemente, ajustar a taxa de aprendizado e o lambda simultaneamente pode ter efeitos de confusão.

Parada antecipada significa encerrar o treinamento antes que o modelo alcance totalmente a convergência. Na prática, muitas vezes acabamos com uma quantidade de parada antecipada implícita ao treinar de maneira on-line (contínua). Ou seja, algumas tendências novas ainda não têm dados suficientes para convergir.

Conforme observado, os efeitos das alterações nos parâmetros de regularização podem ser confundidos com os de mudanças na taxa de aprendizado ou no número de iterações. Uma prática útil, ao treinar em um lote fixo de dados, é conseguir um número alto o suficiente de iterações que não atrapalhem a parada antecipada.

Regularização de L2

Exercício do Playground: Regularização de L2

Regularização para simplicidade: lambda

Clique no ícone de adição para saber mais sobre a regularização e a taxa de aprendizado L2.

Clique no ícone de adição para saber mais sobre a regularização e a taxa de aprendizado L₂.