Diese Seite wurde von der Cloud Translation API übersetzt.

Verlust reduzieren: Gradientenabstieg

Das Diagramm des iterativen Ansatzes (Abbildung 1) enthielt ein grünes, handförmiges Feld mit dem Titel "Compute parameter updates" (Aktualisierungen der Parameter berechnen). Stattdessen ersetzen wir diesen algorithmischen Feenstaub durch etwas Wesentliches.

Angenommen, wir hätten die Zeit und die Rechenressourcen, um den Verlust für alle möglichen Werte von $w_1$zu berechnen. Für die Art von Regressionsproblemen, die wir untersucht haben, ist das resultierende Verlustdiagramm im Vergleich zu $w_1$ immer konvex. Mit anderen Worten, das Diagramm wird immer schalenförmig sein:

Ein Diagramm einer U-förmigen Kurve, wobei die vertikale Achse als „Verlust“ und die horizontale Achse als Wert des Gewichts w i beschriftet ist.

Abbildung 2. Regressionsprobleme führen zu Diagrammen des konvexen Verlusts im Vergleich zu Gewichtsdiagrammen.

Konvexe Probleme haben nur ein Minimum, das heißt, nur eine Stelle, an der die Steigung genau 0 ist. Bei diesem Minimum konvergiert die Verlustfunktion.

Die Berechnung der Verlustfunktion für jeden denkbaren Wert von $w_1$über das gesamte Dataset wäre eine ineffiziente Möglichkeit, den Konvergenzpunkt zu finden. Im Folgenden wird ein besserer Mechanismus beschrieben, der im maschinellen Lernen sehr beliebt ist, den sogenannten Gradientenabstieg.

Die erste Phase des Gradientenverfahrens besteht darin, einen Startwert (einen Startpunkt) für $w_1$auszuwählen. Der Ausgangspunkt ist nicht entscheidend. Daher setzen viele Algorithmen $w_1$ einfach auf 0 oder wählen einen Zufallswert aus. Die folgende Abbildung zeigt, dass wir einen Startpunkt ausgewählt haben, der etwas größer als 0 ist:

Darstellung einer U-förmigen Kurve. Ein Punkt, der etwa auf halber Höhe der linken Seite der Kurve liegt, wird als „Startpunkt“ bezeichnet.

Abbildung 3. Ausgangspunkt für das Gradientenverfahren.

Der Algorithmus des Gradientenabstiegs berechnet dann den Gradienten der Verlustkurve am Startpunkt. In Abbildung 3 ist der Gradient des Verlusts gleich der Ableitung (Slope) der Kurve und gibt an, welcher Weg "wärmer" oder "kälter" ist. Wenn mehrere Gewichtungen vorhanden sind, ist der Gradient ein Vektor von partiellen Ableitungen in Bezug auf die Gewichtungen.

Klicken Sie auf das Pluszeichen, um mehr über partielle Ableitungen und Farbverläufe zu erfahren.

Das maschinelle Lernen ist eine faszinierende Rechnung. Wir freuen uns, dass Sie auf den Link geklickt haben, um mehr zu erfahren. Beachten Sie jedoch, dass TensorFlow alle Gradientenberechnungen für Sie übernimmt, sodass Sie die hier bereitgestellten Berechnungen nicht verstehen müssen.

Partielle Ableitungen

Eine multivariable Funktion ist eine Funktion mit mehr als einem Argument, z. B.:

$$f(x,y) = e^{2y}\sin(x)$$

Die partielle Ableitung $f$ in Bezug auf $x$, wie folgt:

$$ \partial f \over \partial x $$

ist die Ableitung von $f$ , die als Funktion von $x$allein betrachtet wird. So finden Sie Folgendes:

$$\partial f \over \partial x $$

Sie müssen $y$ Konstante halten (also $f$ ist jetzt eine Funktion einer Variablen $x$) und die reguläre Ableitung von $f$in Bezug auf $x$ableiten. Wenn $y$ beispielsweise auf 1 festgelegt ist, wird die vorherige Funktion:

$$ f(x) = e^2\sin(x) $$

Dies ist nur eine Funktion einer Variablen $x$, deren Ableitung so lautet:

$$ e^2\cos(x) $$

Wenn $y$ als fest betrachtet wird, wird die partielle Ableitung von $f$ in Bezug auf $x$ im Allgemeinen so berechnet:

$$\frac{\partial f}{\partial x}(x,y) = e^{2y}\cos(x)$$

Wenn wir stattdessen $x$ fixieren, sieht die partielle Ableitung von $f$ in Bezug auf $y$ so aus:

$$ \frac{\partial f}{\partial y}(x,y) = 2e^{2y}\sin(x) $$

Intuitiv sagt eine partielle Ableitung Ihnen aus, wie stark sich die Funktion ändert, wenn Sie eine Variable ein wenig stören. Im obigen Beispiel gilt Folgendes:

$$ \frac{\partial f}{\partial x} (0,1) = e^2 \approx 7.4 $$

Wenn du also bei $(0,1)$beginnst, $y$ ständig hältst und dich $x$ etwas $x$ bewegst,$f$ verändert sich dies um das 7,4-Fache des Betrags $x$.

Beim maschinellen Lernen werden partielle Ableitungen meistens in Verbindung mit dem Gradienten einer Funktion verwendet.

Farbverläufe

Der Gradienten einer Funktion, der so bezeichnet wird, ist der Vektor der partiellen Ableitungen in Bezug auf alle unabhängigen Variablen:

$$ \nabla f $$

Beispiel:

$$ f(x,y) = e^{2y}\sin(x) $$

dann:

$$\nabla f(x,y) = \left(\frac{\partial f}{\partial x}(x,y), \frac{\partial f}{\partial y}(x,y)\right) = (e^{2y}\cos(x), 2e^{2y}\sin(x))$$

Wichtige Hinweise:

$$\nabla f$$	Verweist in die Richtung der größten Zunahme der Funktion.
$$ {-\nabla f} $$	Verweist in die Richtung der größten Abnahme der Funktion.

Die Anzahl der Dimensionen im Vektor entspricht der Anzahl der Variablen in der Formel für $f$. Mit anderen Worten, der Vektor befindet sich im Domänenbereich der Funktion. Das Diagramm der folgenden Funktion $f(x,y)$:

$$ f(x,y) = 4 + (x - 2)^2 + 2y^2 $$

bei drei Dimensionen mit $z = f(x,y)$ sieht aus wie ein Tal mit einem Minimum bei $(2,0,4)$:

Der Gradient von $f(x,y)$ ist ein zweidimensionaler Vektor, der angibt, in welche$(x,y)$ Richtung Sie sich bis zum Maximum an Höhe bewegen müssen. Der negative Wert des Gradienten bewegt Sie also in die Richtung der maximalen Höhenverringerung. Mit anderen Worten, der Negativ des Gradientenvektors verweist in das Tal.

Beim maschinellen Lernen werden Gradienten beim Gradientenverfahren verwendet. Wir haben häufig eine Verlustfunktion vieler Variablen, die wir zu minimieren versuchen, und wir versuchen, dies zu erreichen, indem wir dem negativen Gradienten der Funktion folgen.

Beachten Sie, dass ein Farbverlauf ein Vektor ist und daher die folgenden beiden Eigenschaften aufweist:

eine Richtung
eine Größenordnung

Der Gradient zeigt immer in die Richtung des steilsten Anstiegs der Verlustfunktion. Der Algorithmus des Gradientenabstiegs legt einen Schritt in Richtung des negativen Gradienten vor, um den Verlust so schnell wie möglich zu reduzieren.

Darstellung einer U-förmigen Kurve. Ein Punkt auf der linken Seite der Kurve ist als „Startpunkt“ bezeichnet. Von diesem Punkt nach rechts zeigt ein Pfeil mit der Bezeichnung „Negativverlauf“.

Abbildung 4. Beim Gradientenabstieg werden negative Farbverläufe verwendet.

Um den nächsten Punkt entlang der Verlustfunktionskurve zu bestimmen, fügt der Algorithmus des Gradientenabstiegs einen Bruchteil der Größe des Gradienten zum Startpunkt hinzu, wie in der folgenden Abbildung dargestellt:

Abbildung 5. Ein Gradientenschritt bringt uns zum nächsten Punkt auf der Verlustkurve.

Der Gradientenabstieg wiederholt diesen Prozess dann und nähert sich dem Minimum immer näher.

Zurück

Ein iterativer Ansatz

Weiter

Lernrate