Utracone to dane numeryczne, które opisują jak źle prognozy modelu . Strata to odległość między prognozami modelu a rzeczywistą etykiety. Celem wytrenowania modelu jest zminimalizowanie strat przez ograniczenie go do najniższą możliwą wartość.
Na poniższym obrazie możesz przedstawić straty w postaci strzałek pochodzących z danych wskazuje model. Strzałki pokazują odległość od prognoz modelu wartości rzeczywiste.
Rysunek 9. Strata jest mierzona od wartości rzeczywistej do prognozowanej.
Odległość przegranej
W statystykach i w uczeniu maszynowym strata mierzy różnicę między prognozowanych i rzeczywistych wartości. Strata skupia się na odległości między wartościami. a nie kierunek. Jeśli na przykład model przewiduje 2, ale rzeczywista wartość to 5, nie obchodzimy się, aby strata była ujemna w wysokości -3 zł (2-5 zł=-3 zł). Zależy nam na tym, aby odległość między wartościami wynosi 3 USD. Dlatego wszystkie metody obliczania straty usuń znak.
Oto 2 najczęstsze metody jego usunięcia:
- Wybierz wartość bezwzględną różnicy między wartością rzeczywistą a wartością z prognozą.
- Podnieś do kwadratu różnicę między wartością rzeczywistą a prognozą.
Rodzaje strat
W regresji liniowej wyróżniamy 4 główne typy strat opisane tabeli poniżej.
Typ straty | Definicja | Równanie |
---|---|---|
L1 – strata . | Suma wartości bezwzględnych różnicy między wartościami prognozowanymi a rzeczywistymi. | $ ∑ | wartość rzeczywista\ – wartość prognozowana | USD |
Średni błąd bezwzględny (MAE) | Średnia strat L1 w zestawie przykładów. | $ \frac{1}{N} ∑ | wartość rzeczywista\ – wartość prognozowana | USD |
L2 strata | Suma różnicy do kwadratu między wartościami prognozowanymi a rzeczywistymi. | ∑(rzeczywista\ wartość – wartość prognozowana)^2 $ |
Błąd średniego do kwadratu (MSE) | Średnia strat L2 w zestawie przykładów. | $ \frac{1}{N} ∑ (rzeczywista\ wartość – wartość prognozowana)^2 $ |
Różnica funkcjonalna między stratą L1 a stratą L2 (lub między MAE a MSE) jest kwadratem. Gdy różnica między jest duża, a prognoza i etykieta są duże, a do kwadratów strata jest jeszcze większa. Gdy jest niewielka (mniejsza niż 1), a podniesiona do kwadratu strata jest jeszcze mniejsza.
W przypadku przetwarzania wielu przykładów jednocześnie zalecamy uśrednianie strat niezależnie od tego, czy używacie MAE, czy MSE.
Przykład obliczania straty
Korzystając z poprzedniej linii najlepszego dopasowania, obliczymy stratę L2 dla jednego przykładu. Z poziomu mamy następujące wartości wagi i uprzedzenia:
- $ \small{Waga: -3,6} PLN
- $ \small{Bias: 30} PLN
Jeśli model przewiduje, że samochód o wadze 950 kg osiąga 32,8 kilometra na litr, to 25 kilometrów na galon, to stratę L2 obliczymy jako następujące:
Wartość | Równanie | Wynik |
---|---|---|
Prognoza | $\small{odchylenie + (waga * funkcja\ wartość)} PLN \mały{30 + (-3,6*2,37)} zł |
$\mały{21,5}zł |
Rzeczywista wartość | $ \small{ etykieta } $ | PLN \small{ 24 } PLN |
Strata L2 | PLN \small{ (prognoza - rzeczywista\ wartość)^2} $ $\small{ (21,5 - 24)^2 }zł |
$\mały{6,25}zł |
W tym przykładzie strata L2 dla tego pojedynczego punktu danych wynosi 6, 25.
Wybór przegranej
Decyzja o użyciu MAE lub MSE zależy od zbioru danych i sposobu, obsługiwać określone prognozy. Zwykle większość wartości cech w zbiorze danych mieści się w określonym zakresie. Na przykład samochody są zwykle pomiędzy 2000 a 2000 rokiem 2000 kg i 8–80 km na litr. Samochód ważący 3000 kg samochód, którego prędkość wynosi 100 km na galon, jest poza typowym zasięgiem i uznawane za wartości odstające.
Wskaźnik odstający może również odnosić się do tego, jak daleko oddalone są prognozy modelu od rzeczywistej . Na przykład samochód o wadze 900 kg lub samochód o prędkości 65 km na litr mieści się w typowych zakresach. Jednak 1500-kilogramowy samochód Wartość 40 mil na galon jest wartością odstającą w kontekście prognozy modelu. ponieważ model przewidywał,że samochód o wadze 900 kg dostanie od 18 do 50 kg 32 km na galon.
Przy wyborze najlepszej funkcji straty zastanów się, jak model ma traktować odstających od reszty. Na przykład MSE przesuwa model bardziej do wartości odstających, a MAE nie działa. Przegrana L2 niesie ze sobą znacznie większą karę za wynik odstający niż Strata L1. Na przykład te obrazy przedstawiają wytrenowany model z użyciem MAE i modelu wytrenowanego z użyciem MSE. Czerwona linia pokazuje pełny wytrenowanego modelu, który będzie używany do prognozowania. Wyniki odstające są bliższe z modelem wytrenowanym z użyciem MSE niż z modelem wytrenowanym z użyciem MAE.
Rysunek 10. Model wytrenowany z użyciem MSE przybliża model do wartości odstających.
Rysunek 11. Model wytrenowany z użyciem MAE jest oddalony od wartości odstających.
Zwróć uwagę na zależność między modelem a danymi:
MSE. Model jest bliższy wartościom odstającym, ale dalej od większości dla pozostałych punktów danych.
MAE. Model jest bardziej oddalony od wartości odstających, ale bliżej większości dla pozostałych punktów danych.
Sprawdź swoją wiedzę
Weźmy pod uwagę 2 fakty: