Lineare Regression: Verlust

Loss ist ein numerischer Messwert, der beschreibt, wie falsch die Vorhersagen eines Modells sind. Der Verlust misst die Entfernung zwischen den Vorhersagen des Modells und den tatsächlichen Labels. Ziel des Modelltrainings ist es, den Verlust zu minimieren und auf den niedrigstmöglichen Wert zu reduzieren.

In der folgenden Abbildung sind die Verluste als Pfeile dargestellt, die von den Daten zum Modell führen. Die Pfeile zeigen, wie weit die Vorhersagen des Modells von den tatsächlichen Werten entfernt sind.

Abbildung 9. Verlustlinien verbinden die Datenpunkte mit dem Modell.

Abbildung 9. Der Verlust wird vom tatsächlichen Wert zum prognostizierten Wert gemessen.

Verlustdistanz

In der Statistik und im maschinellen Lernen wird mit dem Verlust die Differenz zwischen den prognostizierten und den tatsächlichen Werten gemessen. Bei Abweichungen liegt der Fokus auf der Entfernung zwischen den Werten, nicht auf der Richtung. Wenn ein Modell beispielsweise 2 vorhersagt, der tatsächliche Wert aber 5 ist, ist es unerheblich, dass der Verlust negativ ist (-3 €; 2 − 5 = −3 €). Entscheidend ist vielmehr, dass der Abstand zwischen den Werten 3 € beträgt. Daher wird bei allen Methoden zur Berechnung des Verlusts das Vorzeichen entfernt.

Die beiden gängigsten Methoden zum Entfernen des Schilds sind die folgenden:

  • Berechnen Sie den absoluten Wert der Differenz zwischen dem tatsächlichen Wert und der Vorhersage.
  • Quadrieren Sie die Differenz zwischen dem tatsächlichen Wert und der Vorhersage.

Arten von Verlusten

Bei der linearen Regression gibt es vier Haupttypen von Verlusten, die in der folgenden Tabelle beschrieben werden.

Verlusttyp Definition Gleichung
L1-Verlust Die Summe der absoluten Werte der Differenz zwischen den prognostizierten und den tatsächlichen Werten. $ ∑ | tatsächlicher Wert − prognostizierter Wert | $
Mittlerer absoluter Fehler (MAE) Der Durchschnitt der L1-Verluste für eine Reihe von Beispielen. $ \frac{1}{N} \sum | tatsächlicher Wert − vorhergesagter Wert | $
L2-Verlust Die Summe der quadrierten Differenz zwischen den prognostizierten und den tatsächlichen Werten. $ ∑(actual\ value - predicted\ value)^2 $
Mittlere quadratische Abweichung (MSE) Der Durchschnitt der L2-Verluste für eine Reihe von Beispielen. $ \frac{1}{N} \sum (tatsächlicher Wert – prognostizierter Wert)² $

Der funktionale Unterschied zwischen L1-Verlust und L2-Verlust (oder zwischen MAE und MSE) besteht in der Quadratwurzel. Wenn der Unterschied zwischen der Vorhersage und dem Label groß ist, wird der Verlust durch die Quadratwurzel noch größer. Wenn der Unterschied gering ist (unter 1), wird der Verlust durch die Quadratwurzel noch kleiner.

Wenn Sie mehrere Beispiele gleichzeitig verarbeiten, empfehlen wir, die Verluste für alle Beispiele zu mitteln, unabhängig davon, ob Sie MAE oder MSE verwenden.

Beispiel für die Berechnung von Verlusten

Anhand der vorherigen Bestimmten Geraden berechnen wir den L2-Verlust für ein einzelnes Beispiel. Für die Gerade der besten Anpassung haben wir die folgenden Werte für Gewicht und Vorahnung ermittelt:

  • $ \small{Gewicht: -3.6} $
  • $ \small{Voreingenommenheit: 30} $

Wenn das Modell vorhersagt, dass ein 1.080 kg schweres Auto 13,4 km/l erreicht, es aber tatsächlich 15,1 km/l erreicht, berechnen wir den L2-Verlust so:

Wert Gleichung Ergebnis
Vorhersage

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
Tatsächlicher Wert $ \small{ label } $ $ \small{ 24 } $
L2-Verlust

$ \small{ (Vorhersage – tatsächlicher Wert)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

In diesem Beispiel beträgt der L2-Verlust für diesen einzelnen Datenpunkt 6, 25.

Verlust auswählen

Die Entscheidung, ob MAE oder MSE verwendet werden soll, kann vom Datensatz und davon abhängen, wie Sie mit bestimmten Vorhersagen umgehen möchten. Die meisten Featurewerte in einem Dataset fallen normalerweise in einen bestimmten Bereich. So wiegen Autos in der Regel zwischen 2.000 und 5.000 Pfund und haben einen Kraftstoffverbrauch von 8 bis 50 Meilen pro Gallone. Ein Auto mit einem Gewicht von 3.600 kg oder ein Auto, das 160 km/l verbraucht, liegt außerhalb des üblichen Bereichs und wird als Ausreißer betrachtet.

Ein Ausreißer kann auch darauf hinweisen, wie weit die Vorhersagen eines Modells von den tatsächlichen Werten abweichen. Ein Auto mit einem Gewicht von 1.360 kg oder ein Auto mit einem Verbrauch von 5,7 l/100 km liegt beispielsweise im üblichen Bereich. Ein Fahrzeug mit einem Gewicht von über 1.000 kg, das 40 Meilen pro Gallone hat, wäre jedoch ein Ausreißer in Bezug auf die Vorhersage des Modells, da das Modell vorhersagt, dass ein 1.000 kg schweres Auto zwischen 50 und 30 Kilometern pro Gallone liegen würde.

Berücksichtigen Sie bei der Auswahl der besten Verlustfunktion, wie das Modell Ausreißer behandeln soll. Beispielsweise verschiebt der MSE das Modell stärker in Richtung der Ausreißer, während dies beim MAE nicht der Fall ist. Ein L2-Verlust hat für einen Ausreißer einen viel höheren Abzug als ein L1-Verlust. Die folgenden Bilder zeigen beispielsweise ein Modell, das mit MAE und ein Modell, das mit MSE trainiert wurde. Die rote Linie steht für ein vollständig trainiertes Modell, das für Vorhersagen verwendet wird. Die Ausreißer liegen näher am Modell, das mit MSE trainiert wurde, als am Modell, das mit MAE trainiert wurde.

Abbildung 10. Das Modell ist stärker auf die Ausreißer ausgerichtet.

Abbildung 10. Ein mit MSE trainiertes Modell wird den Ausreißern näher gebracht.

Abbildung 11. Das Modell ist weiter von den Ausreißern entfernt.

Abbildung 11. Ein mit MAE trainiertes Modell ist weiter von den Ausreißern entfernt.

Beachten Sie die Beziehung zwischen dem Modell und den Daten:

  • MSE Das Modell liegt näher an den Ausreißern, aber weiter von den meisten anderen Datenpunkten entfernt.

  • MAE. Das Modell liegt weiter von den Ausreißern entfernt, aber näher an den meisten anderen Datenpunkten.

Wissenstest

Betrachten Sie die folgenden beiden Diagramme:

Ein Diagramm mit 10 Punkten.
      Eine Linie verläuft durch sechs der Punkte. Zwei Punkte liegen 1 Einheit über der Linie, zwei weitere 1 Einheit darunter. Ein Diagramm mit 10 Punkten. Eine Linie verläuft durch 8 der Punkte. 1 Punkt befindet sich 2 Einheiten über der Linie und ein weiterer Punkt zwei Einheiten unter der Linie.
Bei welchem der beiden Datensätze in den vorherigen Grafiken ist der höhere Mittelquadratischer Fehler (MSE) zu sehen?
Der Datensatz auf der linken Seite.
Die sechs Beispiele in der Zeile verursachen einen Gesamtverlust von 0. Die vier Beispiele, die nicht auf der Linie liegen, sind nicht sehr weit von der Linie entfernt. Selbst wenn ihr Versatz quadriert wird, ergibt sich immer noch ein niedriger Wert: MSE = 02 + 12 + 02 + 12 + 02 + 12 + 02 + 12 + 02 + 02 ÷ 10 = 0,4.
Der Datensatz rechts.
Bei den acht Beispielen in der Zeile geht der Gesamtverlust von 0 ein. Obwohl nur zwei Punkte von der Linie abweichen, liegen sie doppelt so weit von der Linie entfernt wie die Ausreißerpunkte in der linken Abbildung. Der quadratische Verlust verstärkt diese Unterschiede. So führt ein Offset von zwei zu einem Verlust, der viermal so hoch ist wie ein Offset von eins: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$