Regularización L2 es una métrica de regularización popular que usa la siguiente fórmula:
Por ejemplo, la siguiente tabla muestra el cálculo de L2 regularización para un modelo con seis pesos:
Valor | Valor al cuadrado | |
---|---|---|
w1 | 0.2 | 0.04 |
w2 | -0.5 | 0.25 |
w3 | 5.0 | 25.0 |
w4 | -1.2 | 1.44 |
w5 | 0.3 | 0.09 |
w6 | −0.1 | 0.01 |
26.83 = total |
Ten en cuenta que los pesos cercanos a cero no afectan la regularización L2. mucho, pero las ponderaciones grandes pueden tener un gran impacto. Por ejemplo, en la cálculo anterior:
- Un solo peso (w3) aporta aproximadamente el 93% del complejidad total.
- Las otras cinco ponderaciones aportan en conjunto solo alrededor del 7% del complejidad total.
La regularización L2 impulsa los pesos hacia 0, pero nunca impulsa los pesos hasta llegar a cero.
Ejercicios: Verifica tus conocimientos
Tasa de regularización (lambda)
Como se mencionó, el entrenamiento intenta minimizar alguna combinación de pérdida y complejidad:
Los desarrolladores de modelos ajustan el impacto general de la complejidad en el entrenamiento de modelos multiplicando su valor por un escalar llamado tasa de regularización. Por lo general, el carácter griego lambda simboliza la tasa de regularización.
Es decir, el objetivo de los desarrolladores de modelos es hacer lo siguiente:
Una tasa de regularización alta:
- Fortalece la influencia de la regularización, lo que reduce las posibilidades de el sobreajuste.
- Tiende a producir un histograma de pesos del modelo que tiene lo siguiente:
características:
- una distribución normal
- una ponderación media de 0.
Una tasa de regularización baja:
- Reduce la influencia de la regularización, lo que aumenta las posibilidades de el sobreajuste.
- Tiende a producir un histograma de pesos de modelos con una distribución plana.
Por ejemplo, el histograma de pesos del modelo para una tasa de regularización alta como en la Figura 18.
Por el contrario, una tasa de regularización baja tiende a producir un histograma más plano, ya que como se muestra en la Figura 19.
Cómo elegir la tasa de regularización
La tasa de regularización ideal produce un modelo que se generaliza bien datos nuevos nunca antes vistos. Por desgracia, ese valor ideal depende de los datos, así que debes hacer algunas ajustes.
Interrupción anticipada: una alternativa a la regularización basada en la complejidad
La interrupción anticipada es una de regularización que no implique un cálculo de complejidad. La interrupción anticipada, en cambio, significa finalizar el entrenamiento antes que el modelo. converja por completo. Por ejemplo, el entrenamiento se termina cuando la curva de pérdida del conjunto de validación empieza a aumentar (la pendiente se vuelve positiva).
Aunque la interrupción anticipada suele aumentar la pérdida de entrenamiento, puede disminuir la pérdida de prueba.
La interrupción anticipada es una forma de regularización rápida, pero rara vez óptima. Es muy poco probable que el modelo resultante sea tan bueno como un modelo entrenado de manera exhaustiva con la tasa de regularización ideal.
Encontrar el equilibrio entre la tasa de aprendizaje y la tasa de regularización
Tasa de aprendizaje y la tasa de regularización tienden a sacar las ponderaciones en sentido opuesto cómo llegar a un lugar. Una tasa de aprendizaje alta suele llevar los pesos lejos de cero. una tasa de regularización alta lleva los pesos hacia cero.
Si la tasa de regularización es alta con respecto a la tasa de aprendizaje las ponderaciones débiles tienden a producir un modelo que hace predicciones deficientes. Por el contrario, si la tasa de aprendizaje es alta con respecto a la regularización las ponderaciones fuertes tienden a producir un modelo sobreajustado.
Tu objetivo es encontrar el equilibrio entre la tasa de aprendizaje y de regularización. Esto puede ser desafiante. Lo peor de todo es que, una vez que encuentras ese equilibrio elusivo, quizás deba cambiar la tasa de aprendizaje. Cuando cambies la tasa de aprendizaje, de regularización.