La regularización L2 es una métrica de regularización popular que usa la siguiente fórmula:
Por ejemplo, en la siguiente tabla, se muestra el cálculo de la regularización L2 para un modelo con seis pesos:
| Valor | Valor al cuadrado | |
|---|---|---|
| w1 | 0.2 | 0.04 |
| w2 | -0.5 | 0.25 |
| w3 | 5.0 | 25.0 |
| w4 | -1.2 | 1.44 |
| w5 | 0.3 | 0.09 |
| w6 | -0.1 | 0.01 |
| 26.83 = total |
Observa que los pesos cercanos a cero no afectan mucho la regularización L2, pero los pesos grandes pueden tener un gran impacto. Por ejemplo, en el cálculo anterior:
- Un solo peso (w3) contribuye con aproximadamente el 93% de la complejidad total.
- Los otros cinco pesos contribuyen en conjunto con solo el 7% de la complejidad total.
La regularización L2 ayuda a reducir el tamaño de los pesos hacia 0, pero nunca los lleva a cero.
Ejercicios: Comprueba tu comprensión
Tasa de regularización (lambda)
Como se mencionó, el entrenamiento intenta minimizar alguna combinación de pérdida y complejidad:
Los desarrolladores de modelos ajustan el impacto general de la complejidad en el entrenamiento de modelos multiplicando su valor por un escalar llamado tasa de regularización. El carácter griego lambda suele simbolizar la tasa de regularización.
Es decir, los desarrolladores de modelos intentan hacer lo siguiente:
Una tasa de regularización alta:
- Fortalece la influencia de la regularización, lo que reduce las posibilidades de sobreajuste.
- Tiende a producir un histograma de pesos del modelo con las siguientes características:
- una distribución normal
- un peso medio de 0
Una tasa de regularización baja:
- Disminuye la influencia de la regularización, lo que aumenta las posibilidades de sobreajuste.
- Tiende a producir un histograma de pesos del modelo con una distribución plana.
Por ejemplo, el histograma de pesos del modelo para una tasa de regularización alta podría verse como se muestra en la Figura 18.
Por el contrario, una tasa de regularización baja tiende a producir un histograma más plano, como se muestra en la Figura 19.
Cómo elegir la tasa de regularización
La tasa de regularización ideal produce un modelo que se generaliza bien a datos nuevos que no se vieron antes. Desafortunadamente, ese valor ideal depende de los datos, por lo que debes realizar algunos ajuste.
Interrupción anticipada: Una alternativa a la regularización basada en la complejidad
La**interrupción anticipada** es un método de regularización que no implica un cálculo de complejidad. En cambio, la interrupción anticipada simplemente significa finalizar el entrenamiento antes de que el modelo converja por completo. Por ejemplo, finalizas el entrenamiento cuando la curva de pérdida del conjunto de validación comienza a aumentar (la pendiente se vuelve positiva).
Si bien la interrupción anticipada suele aumentar la pérdida de entrenamiento, puede disminuir la pérdida de prueba.
La interrupción anticipada es una forma de regularización rápida, pero rara vez óptima. Es muy poco probable que el modelo resultante sea tan bueno como un modelo entrenado por completo con la tasa de regularización ideal.
Cómo encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización
Tasa de aprendizaje y tasa de regularización tienden a mover los pesos en direcciones opuestas . Una tasa de aprendizaje alta suele alejar los pesos de cero; una tasa de regularización alta acerca los pesos a cero.
Si la tasa de regularización es alta con respecto a la tasa de aprendizaje, los pesos débiles tienden a producir un modelo que realiza predicciones deficientes. Por el contrario, si la tasa de aprendizaje es alta con respecto a la tasa de regularización, los pesos fuertes tienden a producir un modelo con sobreajuste.
Tu objetivo es encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización. Esto puede ser un desafío. Lo peor de todo es que, una vez que encuentres ese equilibrio elusivo, es posible que debas cambiar la tasa de aprendizaje. Y, cuando cambies la tasa de aprendizaje, deberás volver a encontrar la tasa de regularización ideal.