Überanpassung: L2-Regularisierung

Die L2-Regularisierung ist ein beliebter Regularisierungsmesswert, für den folgende Formel verwendet wird:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

In der folgenden Tabelle wird beispielsweise die Berechnung der L2-Regelungsfunktion für ein Modell mit sechs Gewichten gezeigt:

Wert Quadratwert
w1 0,2 0,04
w2 -0,5 0,25
w3 5 25.0
w4 -1,2 1,44
w5 0,3 0,09
w6 -0,1 0,01
    26,83 = Gesamtpreis

Beachten Sie, dass Gewichte nahe Null die L2-Regelierung nicht wesentlich beeinflussen, große Gewichte jedoch einen großen Einfluss haben können. In der vorherigen Berechnung:

  • Ein einzelnes Gewicht (w3) trägt etwa 93% zur Gesamtkomplexität bei.
  • Die anderen fünf Gewichte tragen zusammen nur etwa 7% zur Gesamtkomplexität bei.

Bei der L2-Regularisierung werden Gewichte gegen Null gedrückt, aber nie ganz auf null gesetzt.

Übungen: Wissen testen

Was passiert in der Regel mit der Gesamtkomplexität des Modells, wenn Sie beim Trainieren eines Modells die L2-Regelierung verwenden?
Die Gesamtkomplexität des Systems wird wahrscheinlich sinken.
Da die L2-Regularisierung die Gewichte auf 0 hin anregt, wird die Gesamtkomplexität wahrscheinlich sinken.
Die Gesamtkomplexität des Modells bleibt wahrscheinlich gleich.
Das ist sehr unwahrscheinlich.
Die Gesamtkomplexität des Modells wird wahrscheinlich zunehmen.
Das ist unwahrscheinlich. Denken Sie daran, dass die L2-Regularisierung die Gewichte auf 0 hinführt.
Wenn Sie beim Trainieren eines Modells die L2-Regelierung verwenden, werden einige Features aus dem Modell entfernt.
Richtig
Bei der L2-Regularisierung werden einige Gewichte zwar möglicherweise sehr klein, aber niemals auf null gesetzt. Daher tragen alle Features weiterhin zum Modell bei.
Falsch
Bei der L2-Regularisierung werden die Gewichte nie auf null gesetzt.

Regularisierungsrate (Lambda)

Wie bereits erwähnt, wird beim Training versucht, eine Kombination aus Verlust und Komplexität zu minimieren:

$$\text{minimize(loss} + \text{ complexity)}$$

Die Entwickler des Modells passen die Gesamtauswirkung der Komplexität auf das Modelltraining an, indem sie den Wert mit einem Skalar multiplizieren, der als Regulierungsrate bezeichnet wird. Das griechische Lambda steht in der Regel für die Regularisierungsrate.

Das bedeutet, dass Modellentwickler Folgendes anstreben:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Hohe Regularisierungsrate:

  • Erhöht den Einfluss der Regularisierung und verringert so die Wahrscheinlichkeit von Überanpassung.
  • Es wird in der Regel ein Histogramm der Modellgewichte mit den folgenden Eigenschaften erstellt:
    • einer Normalverteilung
    • einen Mittelwert von 0.

Niedrige Rate der Regularisierung:

  • Verringert den Einfluss der Regularisierung und erhöht so die Wahrscheinlichkeit einer Überanpassung.
  • Ergibt in der Regel ein Histogramm der Modellgewichte mit einer flachen Verteilung.

Das Histogramm der Modellgewichte bei einer hohen Regularisierungsrate könnte beispielsweise so aussehen wie in Abbildung 18.

Abbildung 18: Histogramm der Gewichte eines Modells mit einem Mittelwert von null und einer Normalverteilung.
Abbildung 18: Gewichtshistogramm für eine hohe Regularisierungsrate Der Mittelwert ist null. Normalverteilung.

 

Eine niedrige Regularisierungsrate führt dagegen in der Regel zu einem flacheren Histogramm, wie in Abbildung 19 dargestellt.

Abbildung 19: Histogramm der Gewichte eines Modells mit einem Mittelwert von null, das zwischen einer flachen Verteilung und einer Normalverteilung liegt.
Abbildung 19: Gewichtshistogramm für eine niedrige Regularisierungsrate. Der Mittelwert kann null sein oder nicht.

 

Kalibrierungsrate auswählen

Die ideale Regularisierungsrate führt zu einem Modell, das gut auf neue, bisher nicht gesehene Daten generalisiert. Leider ist dieser ideale Wert von den Daten abhängig. Sie müssen also eine gewisse Abstimmung.

Frühzeitiges Beenden: Eine Alternative zur komplexitätsbasierten Regularisierung

Early Stopping ist eine Regularisierungsmethode, bei der keine Komplexität berechnet wird. Stattdessen bedeutet das vorzeitige Beenden einfach, dass das Training beendet wird, bevor das Modell vollständig konvergiert. Sie können das Training beispielsweise beenden, wenn die Verlustkurve für den Validierungssatz ansteigt (die Steigung positiv wird).

Das vorzeitige Beenden erhöht in der Regel den Trainingsverlust, kann aber den Testverlust senken.

Das vorzeitige Beenden ist eine schnelle, aber selten optimale Form der Regularisierung. Das resultierende Modell ist sehr wahrscheinlich nicht so gut wie ein Modell, das gründlich mit der idealen Regularisierungsrate trainiert wurde.

Gleichgewicht zwischen Lernrate und Regularisierungsrate finden

Die Lernrate und die Regularisierungsrate ziehen die Gewichte in der Regel in entgegengesetzte Richtungen. Eine hohe Lernrate führt oft dazu, dass die Gewichte von Null weggezogen werden. Eine hohe Regularisierungsrate führt dazu, dass die Gewichte auf Null gezogen werden.

Wenn die Regularisierungsrate im Vergleich zur Lernrate hoch ist, führen die schwachen Gewichte in der Regel zu einem Modell mit schlechten Vorhersagen. Umgekehrt führt eine hohe Lernrate im Vergleich zur Regularisierungsrate dazu, dass die starken Gewichte in der Regel zu einem überangepassten Modell führen.

Ziel ist es, das Gleichgewicht zwischen Lernrate und Regularisierungsrate zu finden. Das kann eine Herausforderung sein. Und das Schlimmste: Sobald Sie dieses schwer zu findende Gleichgewicht gefunden haben, müssen Sie die Lernrate möglicherweise noch einmal ändern. Wenn Sie die Lernrate ändern, müssen Sie auch die ideale Regularisierungsrate neu ermitteln.