Regularizacja prostoty

Regularizacja oznacza zmniejszanie złożoności modelu w celu ograniczenia nadmiernego dopasowania.

Prostota regularności

Funkcja straty w zestawie treningowym stopniowo się maleje. Z kolei funkcja straty w zbiorze walidacji odmawia, ale potem zaczyna rosnąć.
  • Chcemy uniknąć złożoności modelu, gdy jest to możliwe.
  • Ten pomysł możemy wykorzystać w optymalizacji przeprowadzanej w trakcie trenowania.
  • Minimalizacja ryzyka empirycznego:
    • ma na celu zmniejszenie błędu w trenowaniu.
    • $$ \text{minimize: } Loss(Data\;|\;Model) $$

  • Chcemy uniknąć złożoności modelu, gdy jest to możliwe.
  • Ten pomysł możemy wykorzystać w optymalizacji przeprowadzanej w trakcie trenowania.
  • Minimalizacja ryzyka strukturalnego:
    • ma na celu zmniejszenie błędu w trenowaniu.
    • i równoważyć złożoność
    • $$ \text{minimize: } Loss(Data\;|\;Model) + complexity(Model) $$

  • Jak zdefiniować złożoność(model)?
  • Jak zdefiniować złożoność(model)?
  • Wolę mniejszą wagę
  • Jak zdefiniować złożoność(model)?
  • Wolę mniejszą wagę
  • Odejście od tej zmiany powinno wiązać się z kosztami.
  • Może zakodować tę ideę za pomocą regularyzacji L2 regularization (lub grzbietu).
    • złożoność(model) = suma kwadratów wag
    • Karny za bardzo duże ciężary
    • W przypadku modeli liniowych: preferuje bardziej płaskie zbocza
    • Bayesowski przed:
      • wagi powinny być wyśrodkowane wokół zera
      • wagi powinny być normalnie rozłożone

$$ Loss(Data|Model) + \lambda \left(w_1^2 + \ldots + w_n^2 \right) $$

\(\text{Where:}\)

\(Loss\text{: Aims for low training error}\) \(\lambda\text{: Scalar value that controls how weights are balanced}\) \(w_1^2+\ldots+w_n^2\text{: Square of}\;L_2\;\text{norm}\)