Regresja liniowa: strata

Utracone to dane numeryczne, które opisują jak źle prognozy modelu . Strata to odległość między prognozami modelu a rzeczywistą etykiety. Celem wytrenowania modelu jest zminimalizowanie strat przez ograniczenie go do najniższą możliwą wartość.

Na poniższym obrazie możesz przedstawić straty w postaci strzałek pochodzących z danych wskazuje model. Strzałki pokazują odległość od prognoz modelu wartości rzeczywiste.

Rysunek 9. Linie straty łączą punkty danych z
model atrybucji.

Rysunek 9. Strata jest mierzona od wartości rzeczywistej do prognozowanej.

Odległość przegranej

W statystykach i w uczeniu maszynowym strata mierzy różnicę między prognozowanych i rzeczywistych wartości. Strata skupia się na odległości między wartościami. a nie kierunek. Jeśli na przykład model przewiduje 2, ale rzeczywista wartość to 5, nie obchodzimy się, aby strata była ujemna w wysokości -3 zł (2-5 zł=-3 zł). Zależy nam na tym, aby odległość między wartościami wynosi 3 USD. Dlatego wszystkie metody obliczania straty usuń znak.

Oto 2 najczęstsze metody jego usunięcia:

  • Wybierz wartość bezwzględną różnicy między wartością rzeczywistą a wartością z prognozą.
  • Podnieś do kwadratu różnicę między wartością rzeczywistą a prognozą.

Rodzaje strat

W regresji liniowej wyróżniamy 4 główne typy strat opisane tabeli poniżej.

Typ straty Definicja Równanie
L1 – strata . Suma wartości bezwzględnych różnicy między wartościami prognozowanymi a rzeczywistymi. $ ∑ | wartość rzeczywista\ – wartość prognozowana | USD
Średni błąd bezwzględny (MAE) Średnia strat L1 w zestawie przykładów. $ \frac{1}{N} ∑ | wartość rzeczywista\ – wartość prognozowana | USD
L2 strata Suma różnicy do kwadratu między wartościami prognozowanymi a rzeczywistymi. ∑(rzeczywista\ wartość – wartość prognozowana)^2 $
Błąd średniego do kwadratu (MSE) Średnia strat L2 w zestawie przykładów. $ \frac{1}{N} ∑ (rzeczywista\ wartość – wartość prognozowana)^2 $

Różnica funkcjonalna między stratą L1 a stratą L2 (lub między MAE a MSE) jest kwadratem. Gdy różnica między jest duża, a prognoza i etykieta są duże, a do kwadratów strata jest jeszcze większa. Gdy jest niewielka (mniejsza niż 1), a podniesiona do kwadratu strata jest jeszcze mniejsza.

W przypadku przetwarzania wielu przykładów jednocześnie zalecamy uśrednianie strat niezależnie od tego, czy używacie MAE, czy MSE.

Przykład obliczania straty

Korzystając z poprzedniej linii najlepszego dopasowania, obliczymy stratę L2 dla jednego przykładu. Z poziomu mamy następujące wartości wagi i uprzedzenia:

  • $ \small{Waga: -3,6} PLN
  • $ \small{Bias: 30} PLN

Jeśli model przewiduje, że samochód o wadze 950 kg osiąga 32,8 kilometra na litr, to 25 kilometrów na galon, to stratę L2 obliczymy jako następujące:

Wartość Równanie Wynik
Prognoza

$\small{odchylenie + (waga * funkcja\ wartość)} PLN

\mały{30 + (-3,6*2,37)} zł

$\mały{21,5}zł
Rzeczywista wartość $ \small{ etykieta } $ PLN \small{ 24 } PLN
Strata L2

PLN \small{ (prognoza - rzeczywista\ wartość)^2} $

$\small{ (21,5 - 24)^2 }zł

$\mały{6,25}zł

W tym przykładzie strata L2 dla tego pojedynczego punktu danych wynosi 6, 25.

Wybór przegranej

Decyzja o użyciu MAE lub MSE zależy od zbioru danych i sposobu, obsługiwać określone prognozy. Zwykle większość wartości cech w zbiorze danych mieści się w określonym zakresie. Na przykład samochody są zwykle pomiędzy 2000 a 2000 rokiem 2000 kg i 8–80 km na litr. Samochód ważący 3000 kg samochód, którego prędkość wynosi 100 km na galon, jest poza typowym zasięgiem i uznawane za wartości odstające.

Wskaźnik odstający może również odnosić się do tego, jak daleko oddalone są prognozy modelu od rzeczywistej . Na przykład samochód o wadze 900 kg lub samochód o prędkości 65 km na litr mieści się w typowych zakresach. Jednak 1500-kilogramowy samochód Wartość 40 mil na galon jest wartością odstającą w kontekście prognozy modelu. ponieważ model przewidywał,że samochód o wadze 900 kg dostanie od 18 do 50 kg 32 km na galon.

Przy wyborze najlepszej funkcji straty zastanów się, jak model ma traktować odstających od reszty. Na przykład MSE przesuwa model bardziej do wartości odstających, a MAE nie działa. Przegrana L2 niesie ze sobą znacznie większą karę za wynik odstający niż Strata L1. Na przykład te obrazy przedstawiają wytrenowany model z użyciem MAE i modelu wytrenowanego z użyciem MSE. Czerwona linia pokazuje pełny wytrenowanego modelu, który będzie używany do prognozowania. Wyniki odstające są bliższe z modelem wytrenowanym z użyciem MSE niż z modelem wytrenowanym z użyciem MAE.

Rysunek 10. Model jest bardziej nachylony w kierunku wartości odstających.

Rysunek 10. Model wytrenowany z użyciem MSE przybliża model do wartości odstających.

Rysunek 11. Model jest przechylony bardziej od wartości odstających.

Rysunek 11. Model wytrenowany z użyciem MAE jest oddalony od wartości odstających.

Zwróć uwagę na zależność między modelem a danymi:

  • MSE. Model jest bliższy wartościom odstającym, ale dalej od większości dla pozostałych punktów danych.

  • MAE. Model jest bardziej oddalony od wartości odstających, ale bliżej większości dla pozostałych punktów danych.

Sprawdź swoją wiedzę

Weźmy pod uwagę 2 fakty:

Wykres 10-punktowy.
      Linia biegnie przez 6 punktów. 2 punkty to 1 jednostka
      z innymi, Dwa inne punkty znajdują się 1 jednostkę poniżej linii. Wykres 10-punktowy. Linia biegnie
      do 8 punktów. 1 punkt to 2 jednostki
      z innymi, 1 inny punkt znajduje się 2 jednostki poniżej linii.
Który z 2 zbiorów danych pokazanych na poprzednich wykresach ma wyższy średni kwadrat błędu (MSE)?
Zbiór danych po lewej stronie.
6 przykładów w wierszu wiąże się z bezpośrednią stratą równą 0. Cztery np. przykłady spoza linii, nie są zbyt odległe, więc nawet podniesienie ich przesunięcia powoduje uzyskanie niskiej wartości: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0,4 USD
Zbiór danych po prawej stronie.
Osiem przykładów w wierszu wiąże się z bezpośrednią stratą równą 0. Pamiętaj jednak: choć oddalone są tylko dwa punkty, punkty są 2 razy oddalone od linii co punkty odstające na grafice po lewej stronie. Kwadratowa strata wzmacnia te różnice, więc przesunięcie o dwa powoduje stratę czterokrotnie większą niż przesunięcie jednego elementu: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0,8 USD