Malezja z systemami uczącymi się: spadek i szkolenie

Wytrenowanie modelu oznacza po prostu uczenie się (określanie) dobrych wartości dla wszystkich wag i odchylenia na podstawie przykładów oznaczonych. W przypadku nadzorowanego systemów uczących się algorytm systemów uczących się tworzy model, analizując wiele przykładów i próbując znaleźć model, który minimalizuje ryzyko utraty danych. Ten proces jest nazywany minimalizowaniem ryzyka.

Przegrana to kara za nieprawidłową prognozę. Inaczej mówiąc, strata wskazuje, w jakim stopniu prognoza modelu była w jednym przykładzie. Jeśli prognoza modelu jest idealna, strata wynosi zero, w przeciwnym razie strata jest większa. Celem trenowania modelu jest znalezienie zbioru wag i uprzedzeń we wszystkich przykładach z średnią niską stratą. Na przykład na rysunku 3 znajduje się model o dużej straty po lewej, a model nisko stratny po prawej. Weź pod uwagę te informacje na temat rysunku:

  • Strzałki przedstawiają stratę.
  • Niebieskie linie przedstawiają prognozy.

Dwie karteczki kartejskie, z których każdy zawiera linię i niektóre punkty danych. W pierwszym wykresie linia jest mocno dopasowana do danych, więc strata jest wysoka. W drugim wykresie linia jest lepiej dopasowana do danych, więc strata jest niska.

Rysunek 3. Duża strata w modelu po lewej, mała strata w modelu po prawej stronie.

 

Zauważ, że strzałki w lewym działce są znacznie dłuższe niż ich odpowiedniki w prawej działce. Linia na prawym płaszczyźnie jest znacznie lepiej prognozowana niż linia na wykresie po lewej stronie.

Być może zastanawiasz się, czy nie dałoby się utworzyć funkcji matematycznej (funkcji straty), która skumulowałaby poszczególne straty w ramach istotnej modyfikacji.

Modele regresji liniowej, które przeanalizujemy, korzystają z funkcji straty o nazwie strata kwadratowa (tzw. L2strata). Tak otrzymana kwadratowa strata będzie wyglądać tak:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

Średni błąd kwadratowy (MSE) to średnia kwadratowa strata na przykład w całym zbiorze danych. Aby obliczyć MSE, podsumuj wszystkie kwadraty strat z poszczególnych przykładów, a następnie podziel tę liczbę przez liczbę przykładów:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

gdzie:

  • \((x, y)\) to przykład, w którym
    • \(x\) to zestaw funkcji (np. sygnał, minuta, wiek, płeć), których model używa do prognozowania.
    • \(y\) oznacza etykietę „przykład” (np. temperatura).
  • \(prediction(x)\) to funkcja wag i odchylenia w połączeniu z zestawem funkcji \(x\).
  • \(D\) to zbiór danych zawierający wiele oznakowanych przykładów, które są \((x, y)\) parami.
  • \(N\) to liczba przykładów w polu \(D\).

Chociaż MSE jest powszechnie stosowane w systemach uczących się, nie jest to jedyna praktyczna funkcja utraty ani we wszystkich okolicznościach najlepsza utrata.