Loss ist ein numerischer Messwert, der beschreibt, wie falsch die Vorhersagen eines Modells sind. Der Verlust misst den Abstand zwischen den Vorhersagen des Modells und den tatsächlichen Labels. Ziel des Modelltrainings ist es, den Verlust zu minimieren und auf den niedrigstmöglichen Wert zu reduzieren.
In der folgenden Abbildung sind die Verluste als Pfeile dargestellt, die von den Daten zum Modell führen. Die Pfeile zeigen, wie weit die Vorhersagen des Modells von den tatsächlichen Werten entfernt sind.
Abbildung 9. Der Verlust wird vom tatsächlichen Wert zum prognostizierten Wert gemessen.
Entfernung des Verlusts
In der Statistik und im maschinellen Lernen wird mit dem Verlust die Differenz zwischen den prognostizierten und den tatsächlichen Werten gemessen. Bei Abweichungen liegt der Fokus auf der Entfernung zwischen den Werten, nicht auf der Richtung. Wenn ein Modell beispielsweise 2 vorhersagt, der tatsächliche Wert aber 5 ist, ist es unerheblich, dass der Verlust negativ ist (2–5 = −3). Entscheidend ist vielmehr, dass der Abstand zwischen den Werten 3 beträgt. Daher wird bei allen Methoden zur Berechnung des Verlusts das Vorzeichen entfernt.
Die beiden häufigsten Methoden zum Entfernen des Symbols sind:
- Ermitteln Sie den absoluten Wert der Differenz zwischen dem tatsächlichen Wert und der Vorhersage.
- Quadrieren Sie die Differenz zwischen dem tatsächlichen Wert und der Vorhersage.
Arten von Verlusten
Bei der linearen Regression gibt es vier Haupttypen von Verlusten, die in der folgenden Tabelle beschrieben werden.
Verlusttyp | Definition | Gleichung |
---|---|---|
L1-Verlust | Die Summe der absoluten Werte der Differenz zwischen den prognostizierten und den tatsächlichen Werten. | $ ∑ | tatsächlicher Wert − vorhergesagter Wert | $ |
Mittlerer absoluter Fehler (MAE) | Der Durchschnitt der L1-Verluste für eine Reihe von Beispielen. | $ \frac{1}{N} \sum | tatsächlicher Wert − vorhergesagter Wert | $ |
L2-Verlust | Die Summe der quadrierten Differenz zwischen den prognostizierten und den tatsächlichen Werten. | $ ∑(actual\ value - predicted\ value)^2 $ |
Mittlere quadratische Abweichung (MSE) | Der Durchschnitt der L2-Verluste für eine Reihe von Beispielen. | $ \frac{1}{N} \sum (tatsächlicher Wert – prognostizierter Wert)² $ |
Der funktionale Unterschied zwischen L1-Verlust und L2-Verlust (oder zwischen MAE und MSE) besteht in der Quadratwurzel. Wenn der Unterschied zwischen der Vorhersage und dem Label groß ist, wird der Verlust durch die Quadratwurzel noch größer. Wenn der Unterschied gering ist (weniger als 1), wird der Verlust durch die Quadratwurzel noch kleiner.
Wenn Sie mehrere Beispiele gleichzeitig verarbeiten, empfehlen wir, die Verluste für alle Beispiele zu mitteln, unabhängig davon, ob Sie MAE oder MSE verwenden.
Beispiel für die Berechnung von Verlusten
Anhand der vorherigen Bestimmten Geraden berechnen wir den L2-Verlust für ein einzelnes Beispiel. Für die Gerade der besten Anpassung haben wir die folgenden Werte für Gewicht und Vorahnung ermittelt:
- $ \small{Gewicht: -3.6} $
- $ \small{Voreingenommenheit: 30} $
Wenn das Modell vorhersagt, dass ein 1.080 kg schweres Auto 13,4 km/l erreicht, es aber tatsächlich 15,1 km/l erreicht, berechnen wir den L2-Verlust so:
Wert | Gleichung | Ergebnis |
---|---|---|
Vorhersage | $\small{bias + (weight * feature\ value)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21.5}$ |
Tatsächlicher Wert | $ \small{ label } $ | $ \small{ 24 } $ |
L2-Verlust | $ \small{ (Vorhersage – tatsächlicher Wert)^2} $ $\small{ (21.5 - 24)^2 }$ |
$\small{6,25}$ |
In diesem Beispiel beträgt der L2-Verlust für diesen einzelnen Datenpunkt 6, 25.
Verlust auswählen
Die Entscheidung, ob MAE oder MSE verwendet werden soll, kann vom Datensatz und davon abhängen, wie Sie mit bestimmten Vorhersagen umgehen möchten. Die meisten Feature-Werte in einem Datenbestand fallen in der Regel in einen bestimmten Bereich. So wiegen Autos in der Regel zwischen 2.000 und 5.000 Pfund und haben einen Kraftstoffverbrauch von 8 bis 50 Meilen pro Gallone. Ein Auto mit einem Gewicht von 3.600 kg oder ein Auto, das 160 km/l verbraucht, liegt außerhalb des üblichen Bereichs und wird als Ausreißer betrachtet.
Ein Ausreißer kann auch darauf hinweisen, wie weit die Vorhersagen eines Modells von den tatsächlichen Werten abweichen. 3.000 Pfund liegt beispielsweise im typischen Gewichtsbereich für Autos und 40 Meilen pro Gallon (MPG) im typischen Bereich für die Kraftstoffeffizienz. Ein Auto mit einem Gewicht von 3.000 Pfund, das 40 Meilen pro Gallone (MPG) fährt, wäre jedoch ein Ausreißer in Bezug auf die Vorhersage des Modells, da das Modell vorhersagen würde, dass ein Auto mit einem Gewicht von 3.000 Pfund zwischen 18 und 20 MPG fährt.
Berücksichtigen Sie bei der Auswahl der besten Verlustfunktion, wie Ausreißer vom Modell behandelt werden sollen. So verschiebt der MSE das Modell beispielsweise stärker in Richtung der Ausreißer, während dies beim MAE nicht der Fall ist. Bei L2-Verlusten wird ein Ausreißer viel stärker bestraft als bei L1-Verlusten. Die folgenden Bilder zeigen beispielsweise ein Modell, das mit MAE und ein Modell, das mit MSE trainiert wurde. Die rote Linie steht für ein vollständig trainiertes Modell, das für Vorhersagen verwendet wird. Die Ausreißer liegen näher am Modell, das mit MSE trainiert wurde, als am Modell, das mit MAE trainiert wurde.
Abbildung 10. Ein mit MSE trainiertes Modell wird den Ausreißern näher gebracht.
Abbildung 11. Ein mit MAE trainiertes Modell liegt weiter von den Ausreißern entfernt.
Beachten Sie die Beziehung zwischen dem Modell und den Daten:
MSE Das Modell liegt näher an den Ausreißern, aber weiter von den meisten anderen Datenpunkten entfernt.
MAE. Das Modell liegt weiter von den Ausreißern entfernt, aber näher an den meisten anderen Datenpunkten.
Wissen testen
Betrachten Sie die folgenden beiden Diagramme: