Loss ist ein numerischer Messwert, der beschreibt, wie falsch die Vorhersagen eines Modells sind. Der Verlust misst die Entfernung zwischen den Vorhersagen des Modells und den tatsächlichen Labels. Ziel des Modelltrainings ist es, den Verlust zu minimieren und auf den niedrigstmöglichen Wert zu reduzieren.
In der folgenden Abbildung sind die Verluste als Pfeile dargestellt, die von den Daten zum Modell führen. Die Pfeile zeigen, wie weit die Vorhersagen des Modells von den tatsächlichen Werten entfernt sind.
Abbildung 9. Der Verlust wird vom tatsächlichen Wert zum prognostizierten Wert gemessen.
Verlustdistanz
In der Statistik und im maschinellen Lernen wird mit dem Verlust die Differenz zwischen den prognostizierten und den tatsächlichen Werten gemessen. Bei Abweichungen liegt der Fokus auf der Entfernung zwischen den Werten, nicht auf der Richtung. Wenn ein Modell beispielsweise 2 vorhersagt, der tatsächliche Wert aber 5 ist, ist es unerheblich, dass der Verlust negativ ist (-3 €; 2 − 5 = −3 €). Entscheidend ist vielmehr, dass der Abstand zwischen den Werten 3 € beträgt. Daher wird bei allen Methoden zur Berechnung des Verlusts das Vorzeichen entfernt.
Die beiden gängigsten Methoden zum Entfernen des Schilds sind die folgenden:
- Berechnen Sie den absoluten Wert der Differenz zwischen dem tatsächlichen Wert und der Vorhersage.
- Quadrieren Sie die Differenz zwischen dem tatsächlichen Wert und der Vorhersage.
Arten von Verlusten
Bei der linearen Regression gibt es vier Haupttypen von Verlusten, die in der folgenden Tabelle beschrieben werden.
Verlusttyp | Definition | Gleichung |
---|---|---|
L1-Verlust | Die Summe der absoluten Werte der Differenz zwischen den prognostizierten und den tatsächlichen Werten. | $ ∑ | tatsächlicher Wert − prognostizierter Wert | $ |
Mittlerer absoluter Fehler (MAE) | Der Durchschnitt der L1-Verluste für eine Reihe von Beispielen. | $ \frac{1}{N} \sum | tatsächlicher Wert − vorhergesagter Wert | $ |
L2-Verlust | Die Summe der quadrierten Differenz zwischen den prognostizierten und den tatsächlichen Werten. | $ ∑(actual\ value - predicted\ value)^2 $ |
Mittlere quadratische Abweichung (MSE) | Der Durchschnitt der L2-Verluste für eine Reihe von Beispielen. | $ \frac{1}{N} \sum (tatsächlicher Wert – prognostizierter Wert)² $ |
Der funktionale Unterschied zwischen L1-Verlust und L2-Verlust (oder zwischen MAE und MSE) besteht in der Quadratwurzel. Wenn der Unterschied zwischen der Vorhersage und dem Label groß ist, wird der Verlust durch die Quadratwurzel noch größer. Wenn der Unterschied gering ist (unter 1), wird der Verlust durch die Quadratwurzel noch kleiner.
Wenn Sie mehrere Beispiele gleichzeitig verarbeiten, empfehlen wir, die Verluste für alle Beispiele zu mitteln, unabhängig davon, ob Sie MAE oder MSE verwenden.
Beispiel für die Berechnung von Verlusten
Anhand der vorherigen Bestimmten Geraden berechnen wir den L2-Verlust für ein einzelnes Beispiel. Für die Gerade der besten Anpassung haben wir die folgenden Werte für Gewicht und Vorahnung ermittelt:
- $ \small{Gewicht: -3.6} $
- $ \small{Voreingenommenheit: 30} $
Wenn das Modell vorhersagt, dass ein 1.080 kg schweres Auto 13,4 km/l erreicht, es aber tatsächlich 15,1 km/l erreicht, berechnen wir den L2-Verlust so:
Wert | Gleichung | Ergebnis |
---|---|---|
Vorhersage | $\small{bias + (weight * feature\ value)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21.5}$ |
Tatsächlicher Wert | $ \small{ label } $ | $ \small{ 24 } $ |
L2-Verlust | $ \small{ (Vorhersage – tatsächlicher Wert)^2} $ $\small{ (21.5 - 24)^2 }$ |
$\small{6.25}$ |
In diesem Beispiel beträgt der L2-Verlust für diesen einzelnen Datenpunkt 6, 25.
Verlust auswählen
Die Entscheidung, ob MAE oder MSE verwendet werden soll, kann vom Datensatz und davon abhängen, wie Sie mit bestimmten Vorhersagen umgehen möchten. Die meisten Featurewerte in einem Dataset fallen normalerweise in einen bestimmten Bereich. So wiegen Autos in der Regel zwischen 2.000 und 5.000 Pfund und haben einen Kraftstoffverbrauch von 8 bis 50 Meilen pro Gallone. Ein Auto mit einem Gewicht von 3.600 kg oder ein Auto, das 160 km/l verbraucht, liegt außerhalb des üblichen Bereichs und wird als Ausreißer betrachtet.
Ein Ausreißer kann auch darauf hinweisen, wie weit die Vorhersagen eines Modells von den tatsächlichen Werten abweichen. Ein Auto mit einem Gewicht von 1.360 kg oder ein Auto mit einem Verbrauch von 5,7 l/100 km liegt beispielsweise im üblichen Bereich. Ein Fahrzeug mit einem Gewicht von über 1.000 kg, das 40 Meilen pro Gallone hat, wäre jedoch ein Ausreißer in Bezug auf die Vorhersage des Modells, da das Modell vorhersagt, dass ein 1.000 kg schweres Auto zwischen 50 und 30 Kilometern pro Gallone liegen würde.
Berücksichtigen Sie bei der Auswahl der besten Verlustfunktion, wie das Modell Ausreißer behandeln soll. Beispielsweise verschiebt der MSE das Modell stärker in Richtung der Ausreißer, während dies beim MAE nicht der Fall ist. Ein L2-Verlust hat für einen Ausreißer einen viel höheren Abzug als ein L1-Verlust. Die folgenden Bilder zeigen beispielsweise ein Modell, das mit MAE und ein Modell, das mit MSE trainiert wurde. Die rote Linie steht für ein vollständig trainiertes Modell, das für Vorhersagen verwendet wird. Die Ausreißer liegen näher am Modell, das mit MSE trainiert wurde, als am Modell, das mit MAE trainiert wurde.
Abbildung 10. Ein mit MSE trainiertes Modell wird den Ausreißern näher gebracht.
Abbildung 11. Ein mit MAE trainiertes Modell ist weiter von den Ausreißern entfernt.
Beachten Sie die Beziehung zwischen dem Modell und den Daten:
MSE Das Modell liegt näher an den Ausreißern, aber weiter von den meisten anderen Datenpunkten entfernt.
MAE. Das Modell liegt weiter von den Ausreißern entfernt, aber näher an den meisten anderen Datenpunkten.
Wissenstest
Betrachten Sie die folgenden beiden Diagramme: