Sobreajuste: regularización L2

Regularización L2 es una métrica de regularización popular que usa la siguiente fórmula:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Por ejemplo, la siguiente tabla muestra el cálculo de L2 regularización para un modelo con seis pesos:

Valor Valor al cuadrado
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 −0.1 0.01
    26.83 = total

Ten en cuenta que los pesos cercanos a cero no afectan la regularización L2. mucho, pero las ponderaciones grandes pueden tener un gran impacto. Por ejemplo, en la cálculo anterior:

  • Un solo peso (w3) aporta aproximadamente el 93% del complejidad total.
  • Las otras cinco ponderaciones aportan en conjunto solo alrededor del 7% del complejidad total.

La regularización L2 impulsa los pesos hacia 0, pero nunca impulsa los pesos hasta llegar a cero.

Ejercicios: Verifica tus conocimientos

Si usas la regularización L2 cuando entrenas un modelo, ¿cuál en la complejidad general del modelo?
Es probable que la complejidad general del sistema disminuya.
Dado que la regularización L2 lleva los pesos hacia 0, es probable que la complejidad general disminuya.
Es probable que la complejidad general del modelo se mantenga constante.
Esto es muy poco probable.
Es probable que la complejidad general del modelo aumente.
Esto es poco probable. Recuerda que la regularización L2 lleva las ponderaciones hacia 0.
Si usas la regularización L2 cuando entrenas un modelo, algunos atributos se quitarán del modelo.
Verdadero
Aunque la regularización L2 puede causar que algunos pesos sean muy pequeño, nunca lleva ningún peso a cero. En consecuencia, todos los atributos contribuirán algo al el modelo.
Falso
La regularización L2 nunca envía los pesos al máximo cero.

Tasa de regularización (lambda)

Como se mencionó, el entrenamiento intenta minimizar alguna combinación de pérdida y complejidad:

$$\text{minimize(loss} + \text{ complexity)}$$

Los desarrolladores de modelos ajustan el impacto general de la complejidad en el entrenamiento de modelos multiplicando su valor por un escalar llamado tasa de regularización. Por lo general, el carácter griego lambda simboliza la tasa de regularización.

Es decir, el objetivo de los desarrolladores de modelos es hacer lo siguiente:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Una tasa de regularización alta:

  • Fortalece la influencia de la regularización, lo que reduce las posibilidades de el sobreajuste.
  • Tiende a producir un histograma de pesos del modelo que tiene lo siguiente: características:
    • una distribución normal
    • una ponderación media de 0.

Una tasa de regularización baja:

  • Reduce la influencia de la regularización, lo que aumenta las posibilidades de el sobreajuste.
  • Tiende a producir un histograma de pesos de modelos con una distribución plana.

Por ejemplo, el histograma de pesos del modelo para una tasa de regularización alta como en la Figura 18.

Figura 18. Histograma de los pesos de un modelo con una media de cero y
            una distribución normal.
Figura 18: Histograma de peso para obtener una tasa de regularización alta. La media es cero. Distribución normal

 

Por el contrario, una tasa de regularización baja tiende a producir un histograma más plano, ya que como se muestra en la Figura 19.

Figura 19. Histograma de los pesos de un modelo con una media de cero
            se encuentra entre una distribución plana y una normal
            distribución.
Figura 19: Histograma de peso para una tasa de regularización baja. La media puede ser cero o no.

 

Cómo elegir la tasa de regularización

La tasa de regularización ideal produce un modelo que se generaliza bien datos nuevos nunca antes vistos. Por desgracia, ese valor ideal depende de los datos, así que debes hacer algunas ajustes.

Interrupción anticipada: una alternativa a la regularización basada en la complejidad

La interrupción anticipada es una de regularización que no implique un cálculo de complejidad. La interrupción anticipada, en cambio, significa finalizar el entrenamiento antes que el modelo. converja por completo. Por ejemplo, el entrenamiento se termina cuando la curva de pérdida del conjunto de validación empieza a aumentar (la pendiente se vuelve positiva).

Aunque la interrupción anticipada suele aumentar la pérdida de entrenamiento, puede disminuir la pérdida de prueba.

La interrupción anticipada es una forma de regularización rápida, pero rara vez óptima. Es muy poco probable que el modelo resultante sea tan bueno como un modelo entrenado de manera exhaustiva con la tasa de regularización ideal.

Encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización

Tasa de aprendizaje y la tasa de regularización tienden a sacar las ponderaciones en sentido opuesto cómo llegar a un lugar. Una tasa de aprendizaje alta suele llevar los pesos lejos de cero. una tasa de regularización alta lleva los pesos hacia cero.

Si la tasa de regularización es alta con respecto a la tasa de aprendizaje las ponderaciones débiles tienden a producir un modelo que hace predicciones deficientes. Por el contrario, si la tasa de aprendizaje es alta con respecto a la regularización las ponderaciones fuertes tienden a producir un modelo sobreajustado.

Tu objetivo es encontrar el equilibrio entre la tasa de aprendizaje y de regularización. Esto puede ser desafiante. Lo peor de todo es que, una vez que encuentras ese equilibrio elusivo, quizás deba cambiar la tasa de aprendizaje. Cuando cambies la tasa de aprendizaje, de regularización.