Regularisierung bedeutet, die Komplexität eines Modells zu benachteiligen, um eine Überanpassung zu reduzieren.
Regularisierung für Einfachheit
Generalisierungskurve
Abzüge gegen die Komplexität von Modellen
- Wir möchten die Modellkomplexität so weit wie möglich vermeiden.
- Diese Idee können wir in die Optimierung einfließen, die wir während des Trainings vornehmen.
- Empirische Risikominimierung:
- zielt auf einen geringen Trainingsfehler ab
$$ \text{minimize: } Loss(Data\;|\;Model) $$
Abzüge gegen die Komplexität von Modellen
- Wir möchten die Modellkomplexität so weit wie möglich vermeiden.
- Diese Idee können wir in die Optimierung einfließen, die wir während des Trainings vornehmen.
- Reduzierung struktureller Risiken:
- zielt auf einen geringen Trainingsfehler ab
- bei gleichzeitiger Abwägung der Komplexität
$$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$
Regularisierung
- Wie wird die Komplexität definiert(Modell)?
Regularisierung
- Wie wird die Komplexität definiert(Modell)?
- Ich bevorzuge ein kleineres Gewicht
Regularisierung
- Wie wird die Komplexität definiert(Modell)?
- Ich bevorzuge ein kleineres Gewicht
- Wenn Sie hiervon abweichen,
- Kann diese Idee über die L2-Regularisierung (auch als Grat bezeichnet) codieren
- complexity(model) = Summe der Quadrate der Gewichtungen
- Bestraft große Gewichte
- Für lineare Modelle: bevorzugt flachere Steigungen.
- Bayessche Anfangswahrscheinlichkeit:
- Gewichtungen sollten um 0 herum zentriert sein
- Gewichtungen sollten normal verteilt sein
Eine Verlustfunktion mit L2-Regularisierung
$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$
\(\text{Where:}\)
\(Loss\text{: Aims for low training error}\)
\(\lambda\text{: Scalar value that controls how weights are balanced}\)
\(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)