Regresja liniowa

W tym module przedstawiamy pojęcia związane z regresją liniową.

Regresja liniowa to technika statystyczna służąca do znajdowania zależności między zmiennymi. W kontekście uczenia maszynowego regresja liniowa znajduje zależność między cechamietykietą.

Załóżmy na przykład, że chcemy przewidzieć zużycie paliwa w milach na galon na podstawie masy samochodu. Mamy do dyspozycji taki zbiór danych:

Funty w tysiącach (funkcja) Mile na galon (etykieta)
3,5 18
3,69 15
3,44 18
3,43 16
4,34 15
4,42 14
2,37 24

Jeśli naniesiemy te punkty, otrzymamy taki wykres:

Rysunek 1. Punkty danych pokazujące trend spadkowy od lewej do prawej.

Rysunek 1 Masa samochodu (w funtach) w porównaniu z oceną mil na galon. Wraz ze wzrostem masy samochodu jego zużycie paliwa na milę zwykle maleje.

Możemy utworzyć własny model, przeciągając przez punkty linię najlepszego dopasowania:

Rysunek 2.  Punkty danych z narysowaną linią najlepszego dopasowania, która reprezentuje model.

Rysunek 2. Linia najlepszego dopasowania narysowana na podstawie danych z poprzedniego rysunku.

Równanie regresji liniowej

W języku algebry model ten można zdefiniować jako $ y = mx + b $, gdzie

  • $ y $ to liczba mil na galon – wartość, którą chcemy przewidzieć.
  • $ m $ to nachylenie linii.
  • $ x $ to wartość wejściowa w funtach.
  • $ b $ to punkt przecięcia z osią Y.

W uczeniu maszynowym równanie modelu regresji liniowej ma postać:

$$ y' = b + w_1x_1 $$

gdzie:

  • $ y'$ to prognozowana etykieta – dane wyjściowe.
  • $ b $ to uśrednianie modelu. Zależność ta jest taka sama jak w przypadku równania algebraicznego linii prostej. W ML błąd systematyczny jest czasami nazywany $ w_0 $. Jest to parametr modelu, który jest obliczany podczas treningu.
  • $ w_1 $ to waga tej cechy. Waga to ta sama koncepcja co nachylenie $ m $ w równaniu algebraicznym linii. Waga jest parametrem modelu i jest obliczana podczas trenowania.
  • $ x_1 $ to cecha – dane wejściowe.

Podczas trenowania model oblicza wagę i uśrednianie, które dają najlepszy model.

Rysunek 3.  Równanie y' = b + w1x1, w którym każdy składnik jest opatrzony adnotacją z jego przeznaczeniem.

Rysunek 3. Matematyczne przedstawienie modelu liniowego.

W naszym przykładzie obliczymy wagę i uparty z wykreślonej linii. Współczynnik jest równy 30 (gdzie linia przecina oś Y), a waga – –3,6 (nachylenie linii). Model zostałby zdefiniowany jako $ y' = 30 + (-3.6)(x_1) $ i można go było wykorzystać do prognozowania. Na przykład według tego modelu przewidywana wydajność paliwa dla samochodu o masie 4000 funtów wynosi 15,6 mil na galon.

Rysunek 4.  Ten sam wykres co na rysunku 2, ale z wyróżnionym punktem (4, 15,6).

Rysunek 4 Na podstawie tego modelu przewidywany współczynnik zużycia paliwa dla samochodu o masie 4000 funtów wynosi 15,6 mil na galon.

Modele z wieloma funkcjami

Przykład w tej sekcji wykorzystuje tylko jedną cechę – ciężar samochodu – ale bardziej zaawansowany model może opierać się na wielu cechach, z których każda ma osobną wagę ($ w_1 $, $ w_2 $ itd.). Na przykład model, który korzysta z 5 cech, będzie wyglądał tak:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Na przykład model przewidujący zużycie paliwa może dodatkowo używać takich cech:

  • Pojemność silnika
  • Przyspieszenie
  • Liczba cylindrów
  • Koń parowy

Ten model będzie wyglądał tak:

Rysunek 5.  Równanie regresji liniowej z 5 cechami

Rysunek 5. Model z 5 cechami do przewidywania zużycia paliwa na milę.

Na wykresach przedstawiających niektóre z tych dodatkowych funkcji widać, że mają one również liniowy związek z oznaczeniem „mile na galon”:

Rysunek 6. Pojemność w cm3 na wykresie w porównaniu z mile na galon, pokazująca ujemną zależność liniową.

Rysunek 6. pojemność skokowa silnika w cm3 i ocena w MPG, Wraz ze wzrostem pojemności silnika samochodu jego zużycie paliwa na milę zwykle maleje.

Rysunek 7. Przyspieszenie od 0 do 60 km/h w sekundach na wykresie w stosunku do mil na galon, pokazujące dodatnią zależność liniową.

Rysunek 7. przyspieszenie samochodu i wartość mil na galon. Im dłużej trwa przyspieszanie samochodu, tym wyższa jest średnia liczba mil na galon.

Rysunek 8. Moc wyrażona w koniach na wykresie w porównaniu z mile na galon, pokazująca ujemną zależność liniową.

Rysunek 8. Moc silnika i liczba mil na galon. Wraz ze wzrostem mocy silnika samochodu liczba mil na galon zwykle maleje.

Ćwiczenie: sprawdź swoją wiedzę

Jakie elementy równania regresji liniowej są aktualizowane podczas trenowania?
Uwzględnienie i wagi
Podczas trenowania model aktualizuje wagi i uczenie.
Prognoza
Prognozy nie są aktualizowane podczas treningu.
wartości cech;
Wartości cech są częścią zbioru danych, więc nie są aktualizowane podczas trenowania.