Ta strona została przetłumaczona przez Cloud Translation API.

Regresja liniowa: utrata

Strata to wartość liczbowa, która opisuje, jak bardzo prognozy modelu są błędne. Funkcja straty mierzy odległość między prognozami modelu a rzeczywistymi etykietami. Celem trenowania modelu jest minimalizowanie straty, czyli zmniejszanie jej do najniższej możliwej wartości.

Na poniższym obrazie możesz zobaczyć funkcję straty jako strzałki narysowane od punktów danych do modelu. Strzałki pokazują, jak bardzo prognozy modelu odbiegają od rzeczywistych wartości.

Rysunek 8. Linie strat łączą punkty danych z modelem.

Rysunek 8. Utrata jest mierzona od wartości rzeczywistej do wartości przewidywanej.

Odległość utraty

W statystyce i uczeniu maszynowym funkcja straty mierzy różnicę między wartościami prognozowanymi a rzeczywistymi. Funkcja straty koncentruje się na odległości między wartościami, a nie na kierunku. Jeśli np. model przewiduje wartość 2, a rzeczywista wartość to 5, nie interesuje nas, że strata jest ujemna (2 – 5 = –3). Zamiast tego interesuje nas odległość między wartościami, która wynosi 3. Dlatego wszystkie metody obliczania straty usuwają znak.

Oto 2 najczęstsze metody usuwania znaku:

Oblicz wartość bezwzględną różnicy między wartością rzeczywistą a prognozą.
Podnieś do kwadratu różnicę między wartością rzeczywistą a prognozą.

Rodzaje strat

W regresji liniowej występuje 5 głównych typów funkcji straty, które zostały opisane w tej tabeli.

Typ straty	Definicja	Równanie
Utrata sygnału _L1	Suma wartości bezwzględnych różnicy między prognozowanymi a rzeczywistymi wartościami.	$ ∑ \| actual\ value - predicted\ value \| $
Średni błąd bezwzględny (MAE)	Średnia strat L₁ w przypadku zbioru N przykładów.	$ \frac{1}{N} ∑ \| actual\ value - predicted\ value \| $
Utrata _L2	Suma kwadratów różnic między prognozowanymi a rzeczywistymi wartościami.	$ ∑(wartość\ rzeczywista - wartość\ przewidywana)^2 $
Błąd średniokwadratowy (MSE)	Średnia strat L₂ w przypadku zbioru N przykładów.	$ \frac{1}{N} ∑ (rzeczywista\ wartość - przewidywana\ wartość)^2 $
Średnia kwadratowa błędów (RMSE)	Pierwiastek kwadratowy z błędu średniokwadratowego (MSE).	$ \sqrt{\frac{1}{N} ∑ (actual\ value - predicted\ value)^2} $

Funkcjonalna różnica między funkcją straty L₁ a funkcją straty L₂ (lub między MAE/RMSE a MSE) polega na podnoszeniu do kwadratu. Gdy różnica między prognozą a etykietą jest duża, podniesienie do kwadratu jeszcze bardziej zwiększa stratę. Gdy różnica jest niewielka (mniejsza niż 1), podniesienie do kwadratu jeszcze bardziej zmniejsza stratę.

W niektórych przypadkach użycia wskaźniki utraty, takie jak MAE i RMSE, mogą być lepsze niż utrata L₂ lub MSE, ponieważ są bardziej zrozumiałe dla człowieka. Mierzą one błąd w tej samej skali co przewidywana wartość modelu.

Podczas przetwarzania wielu przykładów naraz zalecamy uśrednianie strat we wszystkich przykładach, niezależnie od tego, czy używasz MAE, MSE czy RMSE.

Przykład obliczania strat

Korzystając z poprzedniej linii najlepszego dopasowania, obliczymy stratę L₂ dla pojedynczego przykładu. Z linii najlepszego dopasowania uzyskaliśmy te wartości wagi i odchylenia:

$ \small{Waga: -4.6} $
$ \small{Odchylenie: 34} $

Jeśli model przewiduje, że samochód o masie 2370 funtów zużywa 23,1 mili na galon, a w rzeczywistości zużywa 26 mili na galon, stratę L₂ obliczymy w ten sposób:

Wartość	Równanie	Wynik
Prognoza	$\small{bias + (weight * feature\ value)}$ $\small{34 + (-4.6*2.37)}$	$\small{23.1}$
Rzeczywista wartość	$ \small{ label } $	$ \small{ 26 } $
Strata L₂	$ \small{ (wartość\ rzeczywista - wartość\ przewidywana)^2 } $ $\small{ (26 - 23,1)^2 }$	$\small{8.41}$

Wartość

Równanie

Wynik

Prognoza

$\small{bias + (weight * feature\ value)}$

$\small{34 + (-4.6*2.37)}$

$\small{23.1}$

Rzeczywista wartość

$ \small{ label } $

$ \small{ 26 } $

Strata L₂

$ \small{ (wartość\ rzeczywista - wartość\ przewidywana)^2 } $

$\small{ (26 - 23,1)^2 }$

$\small{8.41}$

W tym przykładzie strata L₂ dla tego pojedynczego punktu danych wynosi 8, 41.

Wybieranie utraty

Decyzja o użyciu MAE lub MSE może zależeć od zbioru danych i sposobu, w jaki chcesz traktować określone prognozy. Większość wartości cech w zbiorze danych zwykle mieści się w określonym zakresie. Na przykład samochody ważą zwykle od 2000 do 5000 funtów i przejeżdżają od 8 do 50 mil na galon. Samochód o masie 8000 funtów lub samochód, który przejeżdża 100 mil na galonie, wykracza poza typowy zakres i zostałby uznany za wartość odstającą.

Wartość odstająca może też odnosić się do tego, jak bardzo prognozy modelu odbiegają od rzeczywistych wartości. Na przykład 3000 funtów mieści się w typowym zakresie wagi samochodu, a 40 mil na galon mieści się w typowym zakresie zużycia paliwa. Jednak samochód o wadze 1360 kg, który przejeżdża 64 km na 3,8 l paliwa, byłby wartością odstającą w prognozie modelu, ponieważ model przewiduje, że samochód o wadze 1360 kg przejeżdża około 32 km na 3,8 l paliwa.

Wybierając najlepszą funkcję straty, zastanów się, jak chcesz, aby model traktował wartości odstające. Na przykład MSE przesuwa model w stronę wartości odstających, a MAE nie. Funkcja straty L₂ nakłada na wartość odstającą znacznie większą karę niż funkcja straty L₁. Na przykład poniższe obrazy przedstawiają model wytrenowany przy użyciu MAE i model wytrenowany przy użyciu MSE. Czerwona linia reprezentuje w pełni wytrenowany model, który będzie używany do tworzenia prognoz. Wartości odstające są bliższe modelowi wytrenowanemu za pomocą MSE niż modelowi wytrenowanemu za pomocą MAE.

Rysunek 9. Model jest bardziej nastawiony na wartości odstające.

Rysunek 9. Funkcja straty MSE przybliża model do wartości odstających.

Ilustracja 10. Model jest bardziej odchylony od wartości odstających.

Rysunek 10. Funkcja straty MAE utrzymuje model z dala od wartości odstających.

Zwróć uwagę na związek między modelem a danymi:

MSE Model jest bliżej wartości odstających, ale dalej od większości pozostałych punktów danych.
MAE Model jest bardziej oddalony od wartości odstających, ale bliżej większości pozostałych punktów danych.

Kliknij ikonę, aby uzyskać więcej wskazówek dotyczących wyboru funkcji straty

Wybierz MSE:

Jeśli chcesz surowo karać duże błędy.
Jeśli uważasz, że wartości odstające są ważne i wskazują na prawdziwą wariancję danych, którą model powinien uwzględniać.

Wybierz MAE:

Jeśli w zbiorze danych występują znaczące wartości odstające, które nie powinny mieć zbyt dużego wpływu na model. Wartość MAE jest bardziej odporna na wartości odstające.
Jeśli wolisz funkcję straty, którą można bardziej bezpośrednio interpretować jako średnią wielkość błędu.

W praktyce wybór danych może zależeć od konkretnego problemu biznesowego i rodzaju błędów, które są bardziej kosztowne.

Sprawdź swoją wiedzę

Rozważmy te 2 wykresy modelu liniowego dopasowanego do zbioru danych:

Wykres 10 punktów.
Linia przechodzi przez 6 punktów. 2 punkty znajdują się 1 jednostkę nad linią, a 2 punkty – 1 jednostkę pod linią.

Wykres 10 punktów. Linia przechodzi przez 8 punktów. 1 punkt znajduje się 2 jednostki nad linią, a 1 punkt – 2 jednostki pod linią.

Który z 2 modeli liniowych przedstawionych na powyższych wykresach ma wyższy średni błąd kwadratowy (MSE) po ocenie na podstawie wykreślonych punktów danych?

Model po lewej stronie.

W przypadku 6 przykładów w wierszu całkowita utrata wynosi 0. Cztery przykładów, które nie leżą na linii, nie są od niej zbyt oddalone, więc nawet podniesienie do kwadratu ich odchylenia daje niską wartość: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$

Model po prawej stronie.

8 przykładów w wierszu powoduje łączną stratę 0. Jednak mimo że tylko 2 punkty leżą poza linią, oba te punkty są 2 razy dalej od linii niż punkty odstające na rysunku po lewej stronie. Błąd średniokwadratowy wzmacnia te różnice, więc odchylenie o 2 powoduje 4-krotnie większą stratę niż odchylenie o 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$

Wstecz

Regresja liniowa (10 min)

Dalej

Ćwiczenie interaktywne: Parametry (5 min)