Verlust reduzieren

Um ein Modell zu trainieren, brauchen wir eine gute Möglichkeit, den Verlust des Modells zu reduzieren. Ein iterativer Ansatz ist eine weitverbreitete Methode zur Reduzierung von Verlusten und ist so einfach und effizient wie ein Bergabstieg.

Verlust reduzieren

  • Hyperparameter sind die Konfigurationseinstellungen, mit denen Sie das Training des Modells abstimmen können.
  • Die Ableitung von (y - y')2 in Bezug auf Gewichtungen und Verzerrungen zeigt, wie sich die Verluständerungen an einem bestimmten Beispiel
    • Einfach zu berechnen und konvex
  • Wir unternehmen also wiederholt kleine Schritte in die Richtung, um den Verlust
    • Diese Schritte werden als Verlaufsschritte bezeichnet. In Wirklichkeit sind es aber negative Verlaufsschritte.
    • Diese Strategie wird als Farbverlauf bezeichnet.
Der Zyklus des Wechsels von Features und Labels zu Modellen und Vorhersagen.
  • Bei konvexen Problemen können Gewichtungen überall beginnen (z. B. alle Nullen).
    • Convex: Stellen Sie sich eine Schüsselform vor.
    • Nur ein Minimum
Konvex, schalenförmiges Diagramm
  • Bei konvexen Problemen können Gewichtungen überall beginnen (z. B. alle Nullen).
    • Convex: Stellen Sie sich eine Schüsselform vor.
    • Nur ein Minimum
  • Vorahnung: nicht wahr für neuronale Netze
    • Nicht konvex: Stell dir eine Eikiste vor.
    • Mindestens mehrere
    • Starke Abhängigkeit von Anfangswerten
Konvex, schalenförmiges Diagramm und Diagramm mit mehreren lokalen Minima
  • Der Gradient kann für jeden Schritt für das gesamte Dataset berechnet werden. Dies erweist sich jedoch als unnötig.
  • Die Berechnung des Gradienten bei kleinen Stichproben funktioniert gut.
    • Bei jedem Schritt eine neue Zufallsstichprobe erhalten
  • Stochastischer Gradientenabstieg: ein Beispiel nach dem anderen
  • Mini-Batch Gradient Descent (Gradientenabstieg): Batches von 10–1.000
    • Verlust und Gradienten werden über den Batch gemittelt