La regolarizzazione L2 è una metrica di regolarizzazione molto diffusa, che utilizza la seguente formula:
Ad esempio, la tabella seguente mostra il calcolo della regolarizzazione L2 per un modello con sei pesi:
| Valore | Valore al quadrato | |
|---|---|---|
| w1 | 0,2 | 0,04 |
| w2 | -0,5 | 0,25 |
| w3 | 5,0 | 25,0 |
| w4 | -1.2 | 1,44 |
| w5 | 0,3 | 0,09 |
| w6 | -0,1 | 0,01 |
| 26,83 = totale |
Nota che i pesi vicini allo zero non influiscono molto sulla regolarizzazione L2, ma i pesi elevati possono avere un impatto enorme. Ad esempio, nel calcolo precedente:
- Un singolo peso (w3) contribuisce per circa il 93% alla complessità totale.
- Gli altri cinque pesi contribuiscono collettivamente solo per circa il 7% della complessità totale.
La regolarizzazione L2 incoraggia i pesi verso lo zero, ma non li spinge mai fino a zero.
Esercizi: verifica le tue conoscenze
Tasso di regolarizzazione (lambda)
Come indicato, l'addestramento tenta di ridurre al minimo una combinazione di perdita e complessità:
Gli sviluppatori di modelli regolano l'impatto complessivo della complessità sull'addestramento del modello moltiplicando il suo valore per uno scalare chiamato tasso di regolarizzazione. Il carattere greco lambda simboleggia in genere il tasso di regolarizzazione.
ovvero, gli sviluppatori di modelli mirano a:
Un tasso di regolarizzazione elevato:
- Rafforza l'influenza della regolarizzazione, riducendo così le possibilità di overfitting.
- Tende a produrre un istogramma dei pesi del modello con le seguenti
caratteristiche:
- una distribuzione normale
- un peso medio di 0.
Un tasso di regolarizzazione basso:
- Riduce l'influenza della regolarizzazione, aumentando così le possibilità di overfitting.
- Tende a produrre un istogramma dei pesi del modello con una distribuzione piatta.
Ad esempio, l'istogramma dei pesi del modello per un tasso di regolarizzazione elevato potrebbe avere l'aspetto mostrato nella Figura 18.
Al contrario, un tasso di regolarizzazione basso tende a produrre un istogramma più piatto, come mostrato nella Figura 19.
Scelta del tasso di regolarizzazione
Il tasso di regolarizzazione ideale produce un modello che generalizza bene i dati nuovi e mai visti in precedenza. Purtroppo, questo valore ideale dipende dai dati, quindi devi eseguire l'ottimizzazione tuning.
Interruzione anticipata: un'alternativa alla regolarizzazione basata sulla complessità
L'interruzione anticipata è un metodo di regolarizzazione che non prevede un calcolo della complessità. L'interruzione anticipata, invece, significa semplicemente terminare l'addestramento prima che il modello converga completamente. Ad esempio, l'addestramento termina quando la curva di perdita per il set di validazione inizia ad aumentare (la pendenza diventa positiva).
Sebbene l'interruzione anticipata di solito aumenti la perdita di addestramento, può diminuire la perdita di test.
L'interruzione anticipata è una forma di regolarizzazione rapida, ma raramente ottimale. È molto improbabile che il modello risultante sia buono come un modello addestrato in modo approfondito al tasso di regolarizzazione ideale.
Trovare l'equilibrio tra il tasso di apprendimento e il tasso di regolarizzazione
Il tasso di apprendimento e il tasso di regolarizzazione tendono a spostare i pesi in direzioni opposte. Un tasso di apprendimento elevato spesso allontana i pesi da zero; un tasso di regolarizzazione elevato spinge i pesi verso zero.
Se il tasso di regolarizzazione è elevato rispetto al tasso di apprendimento, i pesi deboli tendono a produrre un modello che fa previsioni imprecise. Al contrario, se il tasso di apprendimento è elevato rispetto al tasso di regolarizzazione, i pesi elevati tendono a produrre un modello di overfitting.
Il tuo obiettivo è trovare l'equilibrio tra il tasso di apprendimento e il tasso di regolarizzazione. Può essere difficile. Peggio ancora, una volta trovato l'equilibrio elusivo, potresti dover modificare il tasso di apprendimento. Inoltre, quando modifichi il tasso di apprendimento, dovrai trovare di nuovo il tasso di regolarizzazione ideale.