Sobreajuste: regularización L2

La regularización L2 es una métrica de regularización popular que usa la siguiente fórmula:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Por ejemplo, la siguiente tabla muestra el cálculo de la regularización L2 para un modelo con seis pesos:

Valor Valor al cuadrado
w1 0.2 0.04
w2 -0.5 0.25
w3 5.0 25.0
w4 -1.2 1.44
w5 0.3 0.09
w6 -0.1 0.01
    26.83 = total

Observa que los pesos cercanos a cero no afectan mucho la regularización L2, pero los pesos grandes pueden tener un gran impacto. Por ejemplo, en el cálculo anterior:

  • Un solo peso (w3) contribuye con alrededor del 93% de la complejidad total.
  • Las otras cinco ponderaciones en conjunto solo contribuyen con alrededor del 7% de la complejidad total.

La regularización L2 fomenta que los pesos se acerquen a 0, pero nunca los lleva a cero.

Ejercicios: Comprueba tu comprensión

Si usas la regularización L2 mientras entrenas un modelo, ¿qué sucederá con la complejidad general del modelo?
Es probable que disminuya la complejidad general del sistema.
Dado que la regularización L2 fomenta los pesos hacia 0, es probable que disminuya la complejidad general.
Es probable que la complejidad general del modelo permanezca constante.
Esto es muy poco probable.
Es probable que aumente la complejidad general del modelo.
Esto es poco probable. Recuerda que la regularización L2 favorece los pesos hacia 0.
Si usas la regularización L2 mientras entrenas un modelo, se quitarán algunos atributos del modelo.
Verdadero
Aunque la regularización L2 puede hacer que algunos pesos sean muy pequeños, nunca los llevará a cero. Por lo tanto, todas las funciones seguirán contribuyendo con algo al modelo.
Falso
La regularización L2 nunca lleva los pesos a cero.

Tasa de regularización (lambda)

Como se señaló, el entrenamiento intenta minimizar alguna combinación de pérdida y complejidad:

$$\text{minimize(loss} + \text{ complexity)}$$

Los desarrolladores de modelos ajustan el impacto general de la complejidad en el entrenamiento del modelo multiplicando su valor por un escalar llamado tasa de regularización. Por lo general, el carácter griego lambda simboliza la tasa de regularización.

Es decir, los desarrolladores de modelos tienen como objetivo hacer lo siguiente:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Una tasa de regularización alta:

  • Fortalece la influencia de la regularización, lo que reduce las posibilidades de sobreajuste.
  • Tiende a producir un histograma de pesos del modelo con las siguientes características:
    • una distribución normal
    • un peso medio de 0.

Una tasa de regularización baja:

  • Disminuye la influencia de la regularización, lo que aumenta las probabilidades de sobreajuste.
  • Tiende a producir un histograma de pesos del modelo con una distribución plana.

Por ejemplo, el histograma de los pesos del modelo para una tasa de regularización alta podría verse como se muestra en la Figura 18.

Figura 18. Histograma de los pesos de un modelo con una media de cero y una distribución normal
Figura 18: Histograma de peso para una tasa de regularización alta. La media es cero. Distribución normal

 

En cambio, un porcentaje de regularización bajo tiende a generar un histograma más plano, como se muestra en la Figura 19.

Figura 19. Histograma de los pesos de un modelo con una media de cero que se encuentra entre una distribución plana y una distribución normal.
Figura 19: Histograma de pesos para una tasa de regularización baja. La media puede ser cero o no.

 

Cómo elegir la tasa de regularización

La tasa de regularización ideal produce un modelo que generaliza bien a los datos nuevos que nunca antes se vieron. Lamentablemente, ese valor ideal depende de los datos, así que debes realizar algunos ajustes de .

Detención anticipada: una alternativa a la regularización basada en la complejidad

La interrupción anticipada es un método de regularización que no implica un cálculo de complejidad. En cambio, la interrupción anticipada simplemente significa finalizar el entrenamiento antes de que el modelo converja por completo. Por ejemplo, finalizas el entrenamiento cuando la curva de pérdida del conjunto de validación comienza a aumentar (la pendiente se vuelve positiva).

Aunque la detención anticipada suele aumentar la pérdida de entrenamiento, puede disminuir la pérdida de prueba.

La detención anticipada es una forma de regularización rápida, pero rara vez óptima. Es muy poco probable que el modelo resultante sea tan bueno como un modelo que se entrenó de forma exhaustiva con la tasa de regularización ideal.

Cómo encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización

La tasa de aprendizaje y la tasa de regularización tienden a tirar de los pesos en direcciones opuestas. Una tasa de aprendizaje alta suele alejar los pesos de cero, mientras que una tasa de regularización alta los acerca a cero.

Si la tasa de regularización es alta en relación con la tasa de aprendizaje, los pesos débiles tienden a producir un modelo que realiza predicciones deficientes. Por el contrario, si la tasa de aprendizaje es alta en relación con la tasa de regularización, los pesos fuertes tienden a producir un modelo sobreajustado.

Tu objetivo es encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización. Esto puede ser un desafío. Lo peor de todo es que, una vez que encuentres ese equilibrio esquivo, es posible que debas cambiar la tasa de aprendizaje. Además, cuando cambies la tasa de aprendizaje, deberás volver a encontrar la tasa de regularización ideal.