Die L2-Regularisierung ist ein beliebter Regularisierungsmesswert, für den folgende Formel verwendet wird:
In der folgenden Tabelle wird beispielsweise die Berechnung der L2-Regelungsfunktion für ein Modell mit sechs Gewichten gezeigt:
Wert | Quadratwert | |
---|---|---|
w1 | 0,2 | 0,04 |
w2 | -0,5 | 0,25 |
w3 | 5 | 25.0 |
w4 | -1,2 | 1,44 |
w5 | 0,3 | 0,09 |
w6 | -0,1 | 0,01 |
26,83 = Gesamtpreis |
Beachten Sie, dass Gewichte nahe Null die L2-Regelierung nicht wesentlich beeinflussen, große Gewichte jedoch einen großen Einfluss haben können. In der vorherigen Berechnung:
- Ein einzelnes Gewicht (w3) trägt etwa 93% zur Gesamtkomplexität bei.
- Die anderen fünf Gewichte tragen zusammen nur etwa 7% zur Gesamtkomplexität bei.
Bei der L2-Regularisierung werden Gewichte gegen Null gedrückt, aber nie ganz auf null gesetzt.
Übungen: Wissen testen
Regularisierungsrate (Lambda)
Wie bereits erwähnt, wird beim Training versucht, eine Kombination aus Verlust und Komplexität zu minimieren:
Die Entwickler des Modells passen die Gesamtauswirkung der Komplexität auf das Modelltraining an, indem sie den Wert mit einem Skalar multiplizieren, der als Regulierungsrate bezeichnet wird. Das griechische Lambda steht in der Regel für die Regularisierungsrate.
Das bedeutet, dass Modellentwickler Folgendes anstreben:
Hohe Regularisierungsrate:
- Erhöht den Einfluss der Regularisierung und verringert so die Wahrscheinlichkeit von Überanpassung.
- Es wird in der Regel ein Histogramm der Modellgewichte mit den folgenden Eigenschaften erstellt:
- einer Normalverteilung
- einen Mittelwert von 0.
Niedrige Rate der Regularisierung:
- Verringert den Einfluss der Regularisierung und erhöht so die Wahrscheinlichkeit einer Überanpassung.
- Ergibt in der Regel ein Histogramm der Modellgewichte mit einer flachen Verteilung.
Das Histogramm der Modellgewichte bei einer hohen Regularisierungsrate könnte beispielsweise so aussehen wie in Abbildung 18.
Eine niedrige Regularisierungsrate führt dagegen in der Regel zu einem flacheren Histogramm, wie in Abbildung 19 dargestellt.
Kalibrierungsrate auswählen
Die ideale Regularisierungsrate führt zu einem Modell, das gut auf neue, bisher nicht gesehene Daten generalisiert. Leider ist dieser ideale Wert von den Daten abhängig. Sie müssen also eine gewisse Abstimmung.
Frühzeitiges Beenden: Eine Alternative zur komplexitätsbasierten Regularisierung
Early Stopping ist eine Regularisierungsmethode, bei der keine Komplexität berechnet wird. Stattdessen bedeutet das vorzeitige Beenden einfach, dass das Training beendet wird, bevor das Modell vollständig konvergiert. Sie können das Training beispielsweise beenden, wenn die Verlustkurve für den Validierungssatz ansteigt (die Steigung positiv wird).
Das vorzeitige Beenden erhöht in der Regel den Trainingsverlust, kann aber den Testverlust senken.
Das vorzeitige Beenden ist eine schnelle, aber selten optimale Form der Regularisierung. Das resultierende Modell ist sehr wahrscheinlich nicht so gut wie ein Modell, das gründlich mit der idealen Regularisierungsrate trainiert wurde.
Gleichgewicht zwischen Lernrate und Regularisierungsrate finden
Die Lernrate und die Regularisierungsrate ziehen die Gewichte in der Regel in entgegengesetzte Richtungen. Eine hohe Lernrate führt oft dazu, dass die Gewichte von Null weggezogen werden. Eine hohe Regularisierungsrate führt dazu, dass die Gewichte auf Null gezogen werden.
Wenn die Regularisierungsrate im Vergleich zur Lernrate hoch ist, führen die schwachen Gewichte in der Regel zu einem Modell mit schlechten Vorhersagen. Umgekehrt führt eine hohe Lernrate im Vergleich zur Regularisierungsrate dazu, dass die starken Gewichte in der Regel zu einem überangepassten Modell führen.
Ziel ist es, das Gleichgewicht zwischen Lernrate und Regularisierungsrate zu finden. Das kann eine Herausforderung sein. Und das Schlimmste: Sobald Sie dieses schwer zu findende Gleichgewicht gefunden haben, müssen Sie die Lernrate möglicherweise noch einmal ändern. Wenn Sie die Lernrate ändern, müssen Sie auch die ideale Regularisierungsrate neu ermitteln.