Um ein Modell zu trainieren, brauchen wir eine gute Möglichkeit, den Verlust des Modells zu reduzieren. Ein iterativer Ansatz ist eine weitverbreitete Methode zur Reduzierung von Verlusten und ist so einfach und effizient wie ein Bergabstieg.
Verlust reduzieren
Wie können wir Verluste reduzieren?
- Hyperparameter sind die Konfigurationseinstellungen, mit denen Sie das Training des Modells abstimmen können.
- Die Ableitung von (y - y')2 in Bezug auf Gewichtungen und Verzerrungen zeigt, wie sich die Verluständerungen an einem bestimmten Beispiel
- Einfach zu berechnen und konvex
- Wir unternehmen also wiederholt kleine Schritte in die Richtung, um den Verlust
- Diese Schritte werden als Verlaufsschritte bezeichnet. In Wirklichkeit sind es aber negative Verlaufsschritte.
- Diese Strategie wird als Farbverlauf bezeichnet.
Blockdiagramm des Gradientenabstiegs
- Probiere die Übung zum Gradientenabstieg aus.
- Wenn du mit der Übung fertig bist, drücke zum Fortfahren auf die Wiedergabetaste ▶
Initialisierung der Gewichtung
- Bei konvexen Problemen können Gewichtungen überall beginnen (z. B. alle Nullen).
- Convex: Stellen Sie sich eine Schüsselform vor.
- Nur ein Minimum
Initialisierung der Gewichtung
- Bei konvexen Problemen können Gewichtungen überall beginnen (z. B. alle Nullen).
- Convex: Stellen Sie sich eine Schüsselform vor.
- Nur ein Minimum
- Vorahnung: nicht wahr für neuronale Netze
- Nicht konvex: Stell dir eine Eikiste vor.
- Mindestens mehrere
- Starke Abhängigkeit von Anfangswerten
SGD und Mini-Batch-Gradientenabstieg
- Der Gradient kann für jeden Schritt für das gesamte Dataset berechnet werden. Dies erweist sich jedoch als unnötig.
- Die Berechnung des Gradienten bei kleinen Stichproben funktioniert gut.
- Bei jedem Schritt eine neue Zufallsstichprobe erhalten
- Stochastischer Gradientenabstieg: ein Beispiel nach dem anderen
- Mini-Batch Gradient Descent (Gradientenabstieg): Batches von 10–1.000
- Verlust und Gradienten werden über den Batch gemittelt