Absteigend in ML: Training und Verlust

Das Trainieren eines Modells bedeutet einfach, dass Sie gute Werte für alle Gewichtungen lernen und diese bestimmen können, und auch die Verzerrung durch beschriftete Beispiele. Beim überwachten Lernen erstellt ein Algorithmus für maschinelles Lernen ein Modell, indem er viele Beispiele untersucht und versucht, ein Modell zu finden, das den Verlust minimiert. Dieser Vorgang wird als empirische Risikominimierung bezeichnet.

Verlust ist die Strafe für eine schlechte Vorhersage. Das heißt, der Verlust ist eine Zahl, die angibt, wie schlecht die Vorhersage des Modells für ein einzelnes Beispiel war. Wenn die Vorhersage des Modells perfekt ist, ist der Verlust null. Andernfalls ist der Verlust größer. Ziel des Training eines Modells ist es, eine Reihe von Gewichtungen und Verzerrungen zu finden, die im Durchschnitt für alle Beispiele einen geringen Verlust aufweisen. Abbildung 3 zeigt beispielsweise ein Modell mit hohem Verlust links und ein Modell mit geringem Verlust rechts. Beachten Sie Folgendes zur Abbildung:

  • Die Pfeile stellen Verluste dar.
  • Die blauen Linien stellen die Vorhersagen dar.

Zwei kartesische Pläne, von denen jedes eine Linie und einige Datenpunkte zeigt. Im ersten Diagramm ist die Linie für die Daten sehr schlecht, sodass der Verlust hoch ausfällt. Im zweiten Diagramm passt die Linie besser in die Daten, sodass der Verlust gering ist.

Abbildung 3. Hoher Verlust im linken Modell, geringer Verlust im rechten Modell.

 

Beachten Sie, dass die Pfeile im linken Diagramm viel länger sind als ihre Pfeile im rechten Diagramm. Wie Sie sehen, ist die Linie im rechten Diagramm ein viel besseres Vorhersagemodell als die Linie im linken Diagramm.

Sie fragen sich vielleicht, ob Sie eine mathematische Funktion – eine Verlustfunktion – erstellen könnten, die die einzelnen Verluste zu einer sinnvollen Moderation zusammenfassen würde.

In den linearen Regressionsmodellen, die wir hier untersuchen, wird die Verlustfunktion Quadratverlust (auch als L2-Verlust bezeichnet) verwendet. Der quadratische Verlust für ein einzelnes Beispiel sieht so aus:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

Der mittlere quadratische Fehler (MSE) ist der durchschnittliche quadratische Quadratverlust pro Beispiel über dem gesamten Dataset. Addiere zur Berechnung des MSE alle quadratischen Verluste für einzelne Beispiele und teile dann durch die Anzahl der Beispiele:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

wobei

  • \((x, y)\) ein Beispiel, in dem
    • \(x\) ist der Satz von Merkmalen (z. B. Pieptöne/Minute, Alter, Geschlecht), den das Modell für Vorhersagen verwendet.
    • \(y\) ist das Label des Beispiels (z. B. Temperatur).
  • \(prediction(x)\) ist eine Funktion der Gewichtungen und Verzerrung in Kombination mit den Funktionen \(x\).
  • \(D\) ist ein Dataset, das viele Beispiele mit Labels enthält, die \((x, y)\) Paare sind.
  • \(N\) ist die Anzahl der Beispiele in \(D\).

Obwohl MSE im Allgemeinen für maschinelles Lernen verwendet wird, ist es nicht die einzige praktische Verlustfunktion oder die beste Verlustfunktion unter allen Umständen.