L2 regolarizzazione è una metrica di regolarizzazione molto diffusa, che utilizza la seguente formula:
Ad esempio, la tabella seguente mostra il calcolo di L2 regolarizzazione per un modello con sei pesi:
Valore | Valore al quadrato | |
---|---|---|
S1 | 0,2 | 0,04 |
S2 | -0,5 | 0,25 |
S3 | 5,0 | 25,0 |
S4 | -1.2 | 1,44 |
S5 | 0,3 | 0,09 |
S6 | -0,1 | 0,01 |
26,83 = totale |
Tieni presente che le ponderazioni vicine a zero non influiscono sulla regolarizzazione L2 molto, ma pesi grandi possono avere un impatto enorme. Ad esempio, nel calcolo precedente:
- Una singola ponderazione (w3) rappresenta circa il 93% del complessità totale.
- Le altre cinque ponderazioni contribuiscono collettivamente solo al 7% circa complessità totale.
La regolarizzazione L2 incoraggia i pesi verso 0, ma non spinge mai i pesi fino a 0.
Esercizi: verifica le tue conoscenze
Tasso di regolarizzazione (lambda)
Come indicato, l'addestramento cerca di ridurre al minimo una combinazione di perdita e complessità:
Gli sviluppatori di modelli ottimizzano l'impatto complessivo della complessità sull'addestramento del modello moltiplicando il suo valore per uno scalare chiamato tasso di regolarizzazione. Il carattere greco lambda di solito simboleggia il tasso di regolarizzazione.
In altre parole, gli sviluppatori di modelli mirano a:
Un tasso di regolarizzazione elevato:
- Rafforza l'influenza della regolarizzazione, riducendo così le possibilità di l'overfitting.
- Tende a produrre un istogramma di pesi del modello avente quanto segue
caratteristiche:
- una distribuzione normale
- con una ponderazione media pari a 0.
Una percentuale di regolarizzazione bassa:
- Riduce l'influenza della regolarizzazione, aumentando così le possibilità di l'overfitting.
- Tende a produrre un istogramma dei pesi del modello con una distribuzione piatta.
Ad esempio, l'istogramma delle ponderazioni del modello per un tasso di regolarizzazione elevato come mostrato nella Figura 18.
Al contrario, un tasso di regolarizzazione basso tende a produrre un istogramma più piatto, poiché come mostrato nella Figura 19.
Scegliere il tasso di regolarizzazione
Il tasso di regolarizzazione ideale produce un modello che generalizza bene nuovi dati non visti in precedenza. Purtroppo questo valore ideale dipende dai dati, quindi devi fare dell'ottimizzazione.
Interruzione anticipata: un'alternativa alla regolarizzazione basata sulla complessità
L'interruzione anticipata è un metodo di regolarizzazione che non prevede un calcolo della complessità. L'interruzione anticipata significa semplicemente terminare l'addestramento prima del modello converge completamente. Ad esempio, termini l'addestramento quando la curva di perdita del set di convalida inizia ad aumentare (la pendenza diventa positiva).
Sebbene l'interruzione anticipata di solito aumenti la perdita dell'addestramento, può diminuire perdita di test.
L'interruzione anticipata è una forma di regolarizzazione rapida ma raramente ottimale. È molto improbabile che il modello risultante sia di qualità pari a quello di un modello addestrato il tasso di regolarizzazione ideale.
Trovare l'equilibrio tra tasso di apprendimento e tasso di regolarizzazione
Tasso di apprendimento e il tasso di regolarizzazione tende a tirare i pesi in indicazioni stradali. Un tasso di apprendimento elevato spesso elimina le ponderazioni da zero; un'elevata frequenza di regolarizzazione porta i pesi verso zero.
Se il tasso di regolarizzazione è alto rispetto al tasso di apprendimento, i pesi deboli tendono a produrre un modello che fa previsioni scadenti. Al contrario, se il tasso di apprendimento è elevato rispetto alla regolarizzazione ponderato, le ponderazioni forti tendono a produrre un modello di overfitting.
Il tuo obiettivo è trovare l'equilibrio tra tasso di apprendimento e tasso di regolarizzazione. Questo può essere difficile. La cosa peggiore, una volta individuato questo equilibrio sfuggente, potresti dover cambiare il tasso di apprendimento. Quando modifichi il tasso di apprendimento, devi di nuovo trovare lo strumento ideale tasso di regolarizzazione.