Diese Seite wurde von der Cloud Translation API übersetzt.

Lineare Regression: Verlust

Verlust ist ein numerischer Messwert, der beschreibt, wie falsch die Vorhersagen eines Modells sind. Der Verlust misst den Abstand zwischen den Vorhersagen des Modells und den tatsächlichen Labels. Ziel des Trainings eines Modells ist es, den Verlust zu minimieren und auf den niedrigstmöglichen Wert zu reduzieren.

Im folgenden Bild ist der Verlust als Pfeile dargestellt, die von den Datenpunkten zum Modell verlaufen. Die Pfeile zeigen, wie weit die Vorhersagen des Modells von den tatsächlichen Werten entfernt sind.

Abbildung 8. Verlustlinien verbinden die Datenpunkte mit dem Modell.

Abbildung 8. Der Verlust wird vom tatsächlichen Wert zum vorhergesagten Wert gemessen.

Entfernung des Verlusts

In der Statistik und beim maschinellen Lernen wird mit dem Verlust die Differenz zwischen den vorhergesagten und den tatsächlichen Werten gemessen. Bei Verlust wird der Abstand zwischen den Werten berücksichtigt, nicht die Richtung. Wenn ein Modell beispielsweise den Wert 2 vorhersagt, der tatsächliche Wert aber 5 ist, ist es uns egal, dass der Verlust negativ ist ($ 2-5=-3 $). Stattdessen ist uns wichtig, dass der Abstand zwischen den Werten $ 3$ beträgt. Daher wird bei allen Methoden zur Berechnung des Verlusts das Vorzeichen entfernt.

Die beiden gängigsten Methoden zum Entfernen des Zeichens sind:

Bilden Sie den absoluten Wert der Differenz zwischen dem tatsächlichen Wert und der Vorhersage.
Die Differenz zwischen dem tatsächlichen Wert und der Vorhersage wird quadriert.

Arten von Verlusten

Bei der linearen Regression gibt es vier Haupttypen von Verlusten, die in der folgenden Tabelle aufgeführt sind.

Verlusttyp	Definition	Gleichung
L₁-Verlust	Die Summe der absoluten Werte der Differenz zwischen den vorhergesagten und den tatsächlichen Werten.	$ ∑ \| actual\ value - predicted\ value \| $
Mittlerer absoluter Fehler (MAE)	Der Durchschnitt der L₁-Verluste für eine Gruppe von N Beispielen.	$ \frac{1}{N} ∑ \| actual\ value - predicted\ value \| $
L₂-Verlust	Die Summe der quadrierten Differenz zwischen den vorhergesagten und den tatsächlichen Werten.	$ ∑(actual\ value - predicted\ value)^2 $
Mittlere quadratische Abweichung (MSE)	Der Durchschnitt der L₂-Verluste für eine Gruppe von N Beispielen.	$ \frac{1}{N} ∑ (actual\ value - predicted\ value)^2 $

Der funktionale Unterschied zwischen L₁-Verlust und L₂-Verlust (oder zwischen MAE und MSE) besteht im Quadrieren. Wenn der Unterschied zwischen der Vorhersage und dem Label groß ist, wird der Verlust durch die Quadrierung noch größer. Wenn der Unterschied gering ist (weniger als 1), wird der Verlust durch die Quadrierung noch geringer.

Wenn Sie mehrere Beispiele gleichzeitig verarbeiten, empfehlen wir, die Verluste über alle Beispiele hinweg zu mitteln, unabhängig davon, ob Sie MAE oder MSE verwenden.

Beispiel für die Berechnung des Verlusts

Anhand der Best-Fit-Linie aus dem vorherigen Beispiel berechnen wir den L₂-Verlust für ein einzelnes Beispiel. Aus der Linie der besten Anpassung ergaben sich die folgenden Werte für Gewicht und Bias:

$ \small{Gewicht: -4,6} $
$ \small{Bias: 34} $

Wenn das Modell vorhersagt, dass ein 1.075 kg schweres Auto 9,8 km pro Liter fährt, es aber tatsächlich 11,05 km pro Liter fährt, wird der L₂-Verlust so berechnet:

Wert	Gleichung	Ergebnis
Vorhersage	$\small{bias + (weight * feature\ value)}$ $\small{34 + (-4.6*2.37)}$	$\small{23.1}$
Tatsächlicher Wert	$ \small{ label } $	$ \small{ 26 } $
L₂-Verlust	$ \small{ (actual\ value - predicted\ value)^2 } $ $\small{ (26 - 23.1)^2 }$	$\small{8.41}$

Wert

Gleichung

Ergebnis

Vorhersage

$\small{bias + (weight * feature\ value)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$

Tatsächlicher Wert

$ \small{ label } $

$ \small{ 26 } $

L₂-Verlust

$ \small{ (actual\ value - predicted\ value)^2 } $

$\small{ (26 - 23.1)^2 }$

$\small{8.41}$

In diesem Beispiel beträgt der L₂-Verlust für diesen einzelnen Datenpunkt 8, 41.

Verlust auswählen

Die Entscheidung, ob MAE oder MSE verwendet werden soll, kann vom Dataset und der Art und Weise abhängen, wie Sie bestimmte Vorhersagen behandeln möchten. Die meisten Feature-Werte in einem Dataset liegen in der Regel in einem bestimmten Bereich. Autos wiegen beispielsweise normalerweise zwischen 900 und 2.250 kg und verbrauchen zwischen 4, 7 und 59 Liter pro 100 km. Ein 3.600 kg schweres Auto oder ein Auto, das 100 Meilen pro Gallone fährt, liegt außerhalb des typischen Bereichs und würde als Ausreißer betrachtet.

Ein Ausreißer kann sich auch darauf beziehen, wie weit die Vorhersagen eines Modells von den tatsächlichen Werten abweichen. Beispielsweise liegt ein Gewicht von 3.000 Pfund im typischen Bereich für das Gewicht von Autos und 40 Meilen pro Gallone im typischen Bereich für die Kraftstoffeffizienz. Ein 1.360 kg schweres Auto, das 17 km pro Liter fährt, wäre jedoch ein Ausreißer in Bezug auf die Vorhersage des Modells, da das Modell vorhersagen würde, dass ein 1.360 kg schweres Auto etwa 8,5 km pro Liter fährt.

Berücksichtigen Sie bei der Auswahl der besten Verlustfunktion, wie das Modell Ausreißer behandeln soll. Bei MSE wird das Modell beispielsweise stärker in Richtung der Ausreißer verschoben als bei MAE. Der L₂-Verlust führt zu einer viel höheren Strafe für einen Ausreißer als der L₁-Verlust. Die folgenden Bilder zeigen beispielsweise ein mit MAE trainiertes Modell und ein mit MSE trainiertes Modell. Die rote Linie stellt ein vollständig trainiertes Modell dar, das für Vorhersagen verwendet wird. Die Ausreißer liegen näher am Modell, das mit MSE trainiert wurde, als am Modell, das mit MAE trainiert wurde.

Abbildung 9. Das Modell ist stärker auf die Ausreißer ausgerichtet.

Abbildung 9. Bei einem mit MSE trainierten Modell wird das Modell näher an die Ausreißer herangeführt.

Abbildung 10. Das Modell wird weiter von den Ausreißern weg geneigt.

Abbildung 10. Ein mit MAE trainiertes Modell ist weiter von den Ausreißern entfernt.

Beachten Sie die Beziehung zwischen dem Modell und den Daten:

MSE: Das Modell liegt näher an den Ausreißern, aber weiter entfernt von den meisten anderen Datenpunkten.
MAE. Das Modell ist weiter von den Ausreißern entfernt, aber näher an den meisten anderen Datenpunkten.

Klicken Sie auf das Symbol, um weitere Richtlinien zur Auswahl eines Verlustmesswerts zu erhalten.

MSE auswählen:

Wenn Sie große Fehler stark bestrafen möchten.
Wenn Sie der Meinung sind, dass die Ausreißer wichtig sind und auf eine echte Datenvarianz hinweisen, die das Modell berücksichtigen sollte.

MAE auswählen:

Wenn Ihr Dataset erhebliche Ausreißer enthält, die das Modell nicht übermäßig beeinflussen sollen. MAE ist robuster.
Wenn Sie eine Verlustfunktion bevorzugen, die direkter als durchschnittlicher Fehler interpretiert werden kann.

In der Praxis kann die Auswahl des Messwerts auch vom jeweiligen geschäftlichen Problem und davon abhängen, welche Art von Fehlern kostspieliger ist.

Wissen testen

Sehen Sie sich die folgenden beiden Diagramme eines linearen Modells an, das an einen Datensatz angepasst wurde:

Ein Diagramm mit 10 Punkten.
Eine Linie verläuft durch 6 der Punkte. 2 Punkte liegen 1 Einheit über der Linie, 2 weitere Punkte 1 Einheit darunter.

Ein Diagramm mit 10 Punkten. Eine Linie verläuft durch 8 Punkte. Ein Punkt liegt 2 Einheiten über der Linie, ein anderer 2 Einheiten darunter.

Welches der beiden linearen Modelle in den vorherigen Diagrammen hat bei der Auswertung der dargestellten Datenpunkte den höheren mittleren quadratischen Fehler (Mean Squared Error, MSE)?

Das Modell auf der linken Seite.

Die sechs Beispiele in der Zeile führen zu einem Gesamtverlust von 0. Die vier Beispiele, die nicht auf der Linie liegen, sind nicht weit von der Linie entfernt. Selbst wenn wir ihren Versatz quadrieren, erhalten wir also einen niedrigen Wert: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$

Das Modell auf der rechten Seite.

Die acht Beispiele in der Zeile führen zu einem Gesamtverlust von 0. Obwohl nur zwei Punkte außerhalb der Linie liegen, sind beide Punkte doppelt so weit von der Linie entfernt wie die Ausreißerpunkte in der Abbildung links. Durch den quadratischen Verlust werden diese Unterschiede verstärkt.Eine Abweichung von 2 führt zu einem viermal so hohen Verlust wie eine Abweichung von 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$

Zurück

Lineare Regression (10 Min.)

Weiter

Interaktive Übung: Parameter (5 Minuten)