Lineare Regression: Verlust

Verlust ist ein numerischer Messwert, der welche Fehler die Vorhersagen eines Modells sind sind. Der Verlust misst den Abstand zwischen den Vorhersagen des Modells und dem tatsächlichen Labels. Das Ziel beim Trainieren eines Modells besteht darin, den Verlust zu minimieren, Niedrigstmöglichen Wert.

In der folgenden Abbildung können Sie den Verlust als Pfeile aus den Daten darstellen auf das Modell verweist. Die Pfeile zeigen an, wie weit die Vorhersagen des Modells die tatsächlichen Werte.

Abbildung 9. Verlustlinien verbinden die Datenpunkte
Modell.

Abbildung 9. Der Verlust wird vom tatsächlichen Wert bis zum vorhergesagten Wert gemessen.

Verlustdistanz

In der Statistik und beim maschinellen Lernen misst Verlust den Unterschied zwischen prognostizierten und tatsächlichen Werte. Beim Verlust liegt der Fokus auf dem Abstand zwischen den Werten. nicht die Richtung. Wenn ein Modell beispielsweise 2 vorhersagt, der tatsächliche Wert 5, ist uns der Verlust nicht wichtig – -3 $ ($ 2 - 5=-3 $). Stattdessen soll die Entfernung zwischen den Werten 3 $ betragen. Dementsprechend werden alle zur Berechnung von Verlusten entfernen.

Die beiden gängigsten Methoden zum Entfernen des Schilds sind die folgenden:

  • Nehmen Sie den absoluten Wert der Differenz zwischen dem tatsächlichen Wert und dem eine Vorhersage treffen.
  • Quadrat die Differenz zwischen dem tatsächlichen Wert und der Vorhersage.

Arten von Verlusten

Bei der linearen Regression gibt es vier Haupttypen von Verlusten, die in in der folgenden Tabelle.

Verlusttyp Definition Gleichung
L1-Verlust Die Summe der absoluten Werte der Differenz zwischen den vorhergesagten Werten und den tatsächlichen Werten. $ ∑ | Tatsächlicher\ Wert - Prognostizierter\ Wert | €
Mittlerer absoluter Fehler (MAE) Durchschnitt der L1-Verluste in einer Reihe von Beispielen. $ \frac{1}{N} ∑ | Tatsächlicher\ Wert - Prognostizierter\ Wert | €
L2-Verlust Die Summe der quadrierten Differenz zwischen den vorhergesagten Werten und den tatsächlichen Werten. $ ∑(tatsächlicher\ Wert – prognostizierter\ Wert)^2 $
Durchschnittlicher quadratischer Fehler (MSE) Durchschnitt der L2-Verluste in einer Reihe von Beispielen. $ \frac{1}{N} ∑ (tatsächlicher\ Wert – prognostizierter\ Wert)^2 $

Der funktionale Unterschied zwischen dem L1-Verlust und dem L2-Verlust (oder zwischen MAE und MSE) im Quadratformat steht. Wenn die Differenz zwischen den Vorhersage und Beschriftung groß ist, vergrößert das Quadrat den Verlust noch. Wenn der Parameter geringer als 1 ist, verringert das Quadrat den Verlust noch.

Bei der gleichzeitigen Verarbeitung mehrerer Beispiele empfiehlt es sich, die Verluste für alle Beispiele, ob mit MAE oder MSE.

Beispiel für die Berechnung des Verlusts

Unter Verwendung der vorherigen Linie am besten anpassen berechnen wir den L2-Verlust für ein einzelnes Beispiel. Wählen Sie im Am besten passten, hatten wir die folgenden Werte für Gewichtung und Verzerrung:

  • $ \small{Gewicht: -3,6} $
  • $ \small{Bias: 30} $

Wenn das Modell vorhersagt, dass ein Auto mit einem Gewicht von 930 kg 38 Kilometer hat, berechnen wir den L2-Verlust wie folgt: folgt:

Wert Gleichung Ergebnis
Vorhersage

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3,6*2,37)}$

$\small{21,5}$
Tatsächlicher Wert $ \small{ label } $ $ \small{ 24 } $
L2-Verlust

$ \small{ (Vorhersage – tatsächlicher\ Wert)^2} $

$\small{ (21,5–24)^2 }$

$\small{6.25}$

In diesem Beispiel beträgt der L2-Verlust für diesen einzelnen Datenpunkt 6, 25.

Einen Verlust auswählen

Die Entscheidung, ob Sie MAE oder MSE verwenden sollten, hängt vom Dataset und davon ab, wie Sie bestimmte Vorhersagen verarbeiten wollen. Die meisten Featurewerte in einem Dataset die in einen bestimmten Bereich fallen. Zum Beispiel liegen Autos normalerweise zwischen 2000 und 5.000 kg und 8–80 Meilen pro Gallone. Ein 8.000 kg schweres Auto oder ein Auto mit einer Geschwindigkeit von 160 Kilometern pro Gallone, liegt außerhalb des üblichen Bereichs und würde nicht als Ausreißer betrachtet werden.

Ein Ausreißer kann sich auch darauf beziehen, wie weit die Vorhersagen eines Modells von den tatsächlichen Werte. Beispiele: liegen im üblichen Bereich. Aber ein über 1.200 kg schweres Auto, 65 Kilometer pro Gallone wären für die Vorhersage des Modells ein Ausreißer. da das Modell vorhersagen würde,dass ein Auto mit einem Gewicht von 1.000 kg 30 Kilometer pro Gallone.

Überlegen Sie bei der Auswahl der besten Verlustfunktion, wie das Modell behandelt werden soll und Ausreißer. So verschiebt MSE das Modell z. B. stärker zu den Ausreißern, während MAE nicht. Ein L2-Verlust hat für einen Ausreißer viel stärkere Strafen zur Folge als L1-Verlust. Die folgenden Bilder zeigen beispielsweise ein trainiertes Modell mit MAE und einem mit MSE trainierten Modell. Die rote Linie steht für eine trainierten Modell, mit dem Vorhersagen getroffen werden. Die Ausreißer liegen näher an dem mit MSE trainierten Modell als mit dem mit MAE trainierten Modell.

Abbildung 10. Das Modell ist stärker zu den Ausreißern hin geneigt.

Abbildung 10. Ein mit MSE trainiertes Modell rückt das Modell näher an die Ausreißer heran.

Abbildung 11. Das Modell ist weiter von den Ausreißern weg geneigt.

Abbildung 11. Ein mit MAE trainiertes Modell ist weiter von den Ausreißern entfernt.

Beachten Sie die Beziehung zwischen dem Modell und den Daten:

  • MSE: Das Modell ist den Ausreißern näher, aber weiter entfernt von den meisten die anderen Datenpunkte.

  • MAE Das Modell ist weiter weg von den Ausreißern, aber näher an den meisten die anderen Datenpunkte.

Wissenstest

Betrachten Sie die folgenden beiden Diagramme:

Ein Diagramm mit zehn Punkten.
      Eine Linie verläuft durch 6 der Punkte. Zwei Punkte entsprechen einer Einheit.
      oberhalb der Linie; 2 weitere Punkte befinden sich 1 Einheit unter der Linie. Ein Diagramm mit zehn Punkten. Eine Linie läuft
      8 der Punkte erledigt haben. 1 Punkt entspricht 2 Einheiten
      oberhalb der Linie; Ein weiterer Punkt sind 2 Einheiten unter der Linie.
Welcher der beiden Datasets, die in den vorherigen Diagrammen gezeigt wurden, hat den höheren mittleren quadratischen Fehler (Mean Squared Error, MSE)?
Das Dataset auf der linken Seite.
In den sechs Beispielen in der Zeile geht ein Gesamtverlust von 0 ein. Die vier Beispiele, die nicht auf der Liste stehen, sind nicht sehr weit davon entfernt. Das Quadrat des Offsets ergibt immer noch einen niedrigen Wert: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4$
Das Dataset auf der rechten Seite.
Die acht Beispiele in der Zeile verlieren insgesamt den Wert 0. Sie können jedoch obwohl nur zwei Punkte vom Rand abliegen, aber beide Punkte sind doppelt so weit von der Linie entfernt wie die Ausreißerpunkte in der linken Abbildung. Der quadrierte Verlust verstärkt diese Unterschiede, Ein Offset von zwei verursacht also einen viermal so großen Verlust wie ein Offset von eins: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8$