Neuronale Netzwerke: Training mit Rückpropagierung

Backpropagation ist die Methode, Trainingsalgorithmus für neuronale Netzwerke. Sie ermöglicht den Gradientenabstieg für mehrschichtige neuronale Netzwerke. Viele Codebibliotheken für maschinelles Lernen, z. B. Keras Backpropagation wird automatisch verarbeitet. Sie müssen also keine die zugrunde liegenden Berechnungen selbst durchführen. Im folgenden Video erhalten Sie Konzeptionelle Übersicht über die Funktionsweise der Backpropagation:

Best Practices für das Training in neuronalen Netzwerken

In diesem Abschnitt werden die Fehlerfälle der Backpropagation und die zur Regularisierung eines neuronalen Netzwerks.

Verschwindende Farbverläufe

Die Verläufe für das untere neuronale Netz Netzwerkschichten, die sich näher an der Eingabeschicht befinden, können sehr klein werden. In Deep-Netzwerken (Netzwerken mit versteckte Schichten enthalten, kann bei der Berechnung dieser Farbverläufe Produkt aus vielen kleinen Begriffen.

Wenn sich die Farbverlaufswerte für die unteren Ebenen bei 0 befinden, ergeben sich die Farbverläufe die „verschwinden“ sollen. Ebenen mit verschwindenden Farbverläufen werden nur langsam oder gar nicht trainiert. überhaupt nicht.

Die ReLU-Aktivierungsfunktion kann dazu beitragen, das Verschwinden von Farbverläufen zu verhindern.

Explodierende Farbverläufe

Wenn die Gewichtungen in einem Netzwerk sehr groß sind, Schichten beinhalten Produkte vieler großer Begriffe. In diesem Fall können Sie Explodierende Farbverläufe: Farbverläufe, die zu groß werden, um zu konvergieren.

Die Batchnormalisierung kann dazu beitragen, explodierende Farbverläufe zu verhindern, ebenso wie Lernrate.

Dead-ReLU-Einheiten

Wenn die gewichtete Summe für eine ReLU-Einheit unter 0 fällt, kann die ReLU-Einheit nicht richtig funktioniert. Er gibt 0 aus und tragt nichts zur Netzwerkleistung bei. und Farbverläufe während der Rückpropagierung nicht mehr durch ihn fließen können. Mit einem oder die Quelle von Gradienten abgeschnitten ist, ändert sich die Eingabe in die ReLU möglicherweise nie ausreichend. um die gewichtete Summe wieder über 0 zu bringen.

Eine niedrigere Lernrate kann dazu beitragen, dass ReLU-Einheiten nicht aussterben.

Dropout-Regularisierung

Eine weitere Form der Regularisierung ist die Dropout-Regularisierung, ist nützlich für neuronale Netzwerke. Sie verlässt willkürlich „abspringen“, Aktivierungen von Einheiten in einem Netzwerk für einen einzelnen Gradientenschritt. Je häufiger Sie aussteigen, desto stärker ist die Regularisierung:

  • 0,0 = Keine Dropout-Regularisierung.
  • 1.0 = Alle Knoten verwerfen. Das Modell lernt nichts.
  • Werte zwischen 0,0 und 1,0 sind nützlicher.