Sobreajuste: regularización L2

La regularización L2 es una métrica de regularización popular que usa la siguiente fórmula:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Por ejemplo, en la siguiente tabla, se muestra el cálculo de la regularización L2 para un modelo con seis pesos:

Valor Valor al cuadrado
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = total

Observa que los pesos cercanos a cero no afectan mucho la regularización L2, pero los pesos grandes pueden tener un gran impacto. Por ejemplo, en el cálculo anterior:

  • Un solo peso (w3) contribuye con aproximadamente el 93% de la complejidad total.
  • Los otros cinco pesos contribuyen en conjunto con solo el 7% de la complejidad total.

La regularización L2 ayuda a reducir el tamaño de los pesos hacia 0, pero nunca los lleva a cero.

Ejercicios: Comprueba tu comprensión

Si usas la regularización L2 mientras entrenas un modelo, ¿qué suele suceder con la complejidad general del modelo?
Es probable que disminuya la complejidad general del sistema.
Dado que la regularización L2 ayuda a reducir el tamaño de los pesos, es probable que disminuya la complejidad general.
Es probable que la complejidad general del modelo se mantenga constante.
Es muy poco probable.
Es probable que aumente la complejidad general del modelo.
Es poco probable. Recuerda que la regularización L2 ayuda a reducir el tamaño de los pesos.
Si usas la regularización L2 mientras entrenas un modelo, se quitarán algunos atributos del modelo.
Verdadero
Si bien la regularización L2 puede reducir mucho algunos pesos, nunca los llevará a cero. Por lo tanto, todos los atributos seguirán contribuyendo al modelo.
Falso
La regularización L2 nunca lleva los pesos a cero.

Tasa de regularización (lambda)

Como se mencionó, el entrenamiento intenta minimizar alguna combinación de pérdida y complejidad:

$$\text{minimize(loss} + \text{ complexity)}$$

Los desarrolladores de modelos ajustan el impacto general de la complejidad en el entrenamiento de modelos multiplicando su valor por un escalar llamado tasa de regularización. El carácter griego lambda suele simbolizar la tasa de regularización.

Es decir, los desarrolladores de modelos intentan hacer lo siguiente:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Una tasa de regularización alta:

  • Fortalece la influencia de la regularización, lo que reduce las posibilidades de sobreajuste.
  • Tiende a producir un histograma de pesos del modelo con las siguientes características:
    • una distribución normal
    • un peso medio de 0

Una tasa de regularización baja:

  • Disminuye la influencia de la regularización, lo que aumenta las posibilidades de sobreajuste.
  • Tiende a producir un histograma de pesos del modelo con una distribución plana.

Por ejemplo, el histograma de pesos del modelo para una tasa de regularización alta podría verse como se muestra en la Figura 18.

Figura 18: Histograma de los pesos de un modelo con una media de cero y una distribución normal.
Figura 18. Histograma de pesos para una tasa de regularización alta. La media es cero. Distribución normal.

 

Por el contrario, una tasa de regularización baja tiende a producir un histograma más plano, como se muestra en la Figura 19.

Figura 19. Histograma de los pesos de un modelo con una media de cero que se encuentra en algún punto entre una distribución plana y una distribución normal.
Figura 19. Histograma de pesos para una tasa de regularización baja. La media puede ser cero o no.

 

Cómo elegir la tasa de regularización

La tasa de regularización ideal produce un modelo que se generaliza bien a datos nuevos que no se vieron antes. Desafortunadamente, ese valor ideal depende de los datos, por lo que debes realizar algunos ajuste.

Interrupción anticipada: Una alternativa a la regularización basada en la complejidad

La**interrupción anticipada** es un método de regularización que no implica un cálculo de complejidad. En cambio, la interrupción anticipada simplemente significa finalizar el entrenamiento antes de que el modelo converja por completo. Por ejemplo, finalizas el entrenamiento cuando la curva de pérdida del conjunto de validación comienza a aumentar (la pendiente se vuelve positiva).

Si bien la interrupción anticipada suele aumentar la pérdida de entrenamiento, puede disminuir la pérdida de prueba.

La interrupción anticipada es una forma de regularización rápida, pero rara vez óptima. Es muy poco probable que el modelo resultante sea tan bueno como un modelo entrenado por completo con la tasa de regularización ideal.

Cómo encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización

Tasa de aprendizaje y tasa de regularización tienden a mover los pesos en direcciones opuestas . Una tasa de aprendizaje alta suele alejar los pesos de cero; una tasa de regularización alta acerca los pesos a cero.

Si la tasa de regularización es alta con respecto a la tasa de aprendizaje, los pesos débiles tienden a producir un modelo que realiza predicciones deficientes. Por el contrario, si la tasa de aprendizaje es alta con respecto a la tasa de regularización, los pesos fuertes tienden a producir un modelo con sobreajuste.

Tu objetivo es encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización. Esto puede ser un desafío. Lo peor de todo es que, una vez que encuentres ese equilibrio elusivo, es posible que debas cambiar la tasa de aprendizaje. Y, cuando cambies la tasa de aprendizaje, deberás volver a encontrar la tasa de regularización ideal.