Regelmäßigkeit für Einfachheit

Regularisierung bedeutet, die Komplexität eines Modells zu benachteiligen, um eine Überanpassung zu reduzieren.

Regularisierung für Einfachheit

Die Verlustfunktion für das Trainings-Dataset nimmt allmählich ab. Im Gegensatz dazu nimmt die Verlustfunktion für das Validierungs-Dataset ab, steigt aber dann an.
  • Wir möchten die Modellkomplexität so weit wie möglich vermeiden.
  • Diese Idee können wir in die Optimierung einfließen, die wir während des Trainings vornehmen.
  • Empirische Risikominimierung:
    • zielt auf einen geringen Trainingsfehler ab
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • Wir möchten die Modellkomplexität so weit wie möglich vermeiden.
  • Diese Idee können wir in die Optimierung einfließen, die wir während des Trainings vornehmen.
  • Reduzierung struktureller Risiken:
    • zielt auf einen geringen Trainingsfehler ab
    • bei gleichzeitiger Abwägung der Komplexität
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • Wie wird die Komplexität definiert(Modell)?
  • Wie wird die Komplexität definiert(Modell)?
  • Ich bevorzuge ein kleineres Gewicht
  • Wie wird die Komplexität definiert(Modell)?
  • Ich bevorzuge ein kleineres Gewicht
  • Wenn Sie hiervon abweichen,
  • Kann diese Idee über die L2-Regularisierung (auch als Grat bezeichnet) codieren
    • complexity(model) = Summe der Quadrate der Gewichtungen
    • Bestraft große Gewichte
    • Für lineare Modelle: bevorzugt flachere Steigungen.
    • Bayessche Anfangswahrscheinlichkeit:
      • Gewichtungen sollten um 0 herum zentriert sein
      • Gewichtungen sollten normal verteilt sein

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\) \(\lambda\text{: Scalar value that controls how weights are balanced}\) \(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)