선형 회귀

이 모듈에서는 선형 회귀 개념을 소개합니다.

선형 회귀는 변수 간의 관계를 찾는 데 사용되는 통계 기법입니다. ML 컨텍스트에서 선형 회귀는 특성라벨 간의 관계를 찾습니다.

예를 들어 자동차의 무게를 기반으로 자동차의 연비(갤런당 마일)를 예측하려고 하며 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다.

파운드 (1,000단위, 지형지물) 갤런당 마일(라벨)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

이러한 점을 표시하면 다음과 같은 그래프가 표시됩니다.

그림 1. 왼쪽에서 오른쪽으로 하향 경향이 나타나는 데이터 포인트

그림 1. 자동차 무게(파운드)와 갤런당 마일(MPG) 등급을 비교합니다. 자동차가 무거워질수록 일반적으로 마일당 갤런(MPG) 등급이 감소합니다.

점들을 통과하는 최적선을 그려서 자체 모델을 만들 수 있습니다.

그림 2. 모델을 나타내는 최적선이 그려진 데이터 포인트

그림 2. 이전 그림의 데이터를 통해 그려진 최적선

선형 회귀식

대수학적 용어로 이 모델은 $ y = mx + b $로 정의되며, 여기서

  • $ y $ 는 예측하려는 값인 마일당 갤런입니다.
  • $ m $ 은 선의 기울기입니다.
  • $ x $ 는 입력 값인 파운드입니다.
  • $ b $ 는 y절편입니다.

ML에서는 선형 회귀 모델의 방정식을 다음과 같이 작성합니다.

$$ y' = b + w_1x_1 $$

각 항목의 의미는 다음과 같습니다.

  • $ y' $ 는 예측된 라벨(출력)입니다.
  • $ b $ 는 모델의 편향입니다. 편향은 선의 대수 방정식에서 y절편과 동일한 개념입니다. ML에서 편향은 $ w_0 $이라고도 합니다. 편향은 모델의 매개변수이며 학습 중에 계산됩니다.
  • $ w_1 $ 은 특성의 가중치입니다. 가중치는 선의 대수 방정식에서 기울기 $ m $ 과 같은 개념입니다. 가중치는 모델의 매개변수이며 학습 중에 계산됩니다.
  • $ x_1 $ 은 특성(입력)입니다.

학습 중에 모델은 최적의 모델을 생성하는 가중치와 편향을 계산합니다.

그림 3. y' = b + w1x1 방정식. 각 구성요소에 목적이 주석으로 추가되어 있습니다.

그림 3. 선형 모델의 수학적 표현입니다.

이 예에서는 그린 선에서 가중치와 편향을 계산합니다. 편향은 30 (선이 y축과 교차하는 지점)이고 가중치는 -3.6 (선의 기울기)입니다. 이 모델은 $ y' = 30 + (-3.6)(x_1) $로 정의되며 이를 사용하여 예측할 수 있습니다. 예를 들어 이 모델을 사용하면 4,000파운드(약 1,814kg)의 자동차의 예상 연비는 갤런당 15.6마일(약 25.1km)입니다.

그림 4. 그림 2와 동일한 그래프이지만 (4, 15.6) 지점이 강조표시되어 있습니다.

그림 4. 이 모델을 사용하면 4, 000파운드(약 1,814kg)의 자동차의 예상 연비는 갤런당 15.6마일(약 25.1km/l)입니다.

여러 기능이 있는 모델

이 섹션의 예에서는 하나의 특성(자동차의 무게)만 사용하지만 보다 정교한 모델에서는 별도의 가중치($ w_1 $, $ w_2 $ 등)가 있는 여러 특성을 사용할 수도 있습니다. 예를 들어 5개의 특성을 사용하는 모델은 다음과 같이 작성됩니다.

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

예를 들어 연비를 예측하는 모델은 다음과 같은 기능을 추가로 사용할 수 있습니다.

  • 엔진 배기량
  • 가속력
  • 실린더 수
  • 마력

이 모델은 다음과 같이 작성됩니다.

그림 5. 5개의 특성이 있는 선형 회귀 방정식

그림 5. 자동차의 갤런당 마일(MPG) 등급을 예측하는 5가지 특성이 있는 모델

이러한 추가 기능 중 일부를 그래프로 표시하면 마일당 갤런(mpg) 라벨과 선형 관계가 있음을 알 수 있습니다.

그림 6. 부피를 입방센티미터로 표시하고 마일당 갤런으로 음의 선형 관계를 보여주는 그래프

그림 6. 자동차의 배기량(입방 센티미터) 및 갤런당 마일(MPG) 등급입니다. 자동차 엔진이 커질수록 갤런당 마일(MPG) 등급은 일반적으로 감소합니다.

그림 7. 0~60초의 가속을 마일당 갤런(mpg)으로 그래프로 표시하여 양의 선형 관계를 보여줍니다.

그림 7. 자동차의 가속도와 갤런당 마일(MPG) 등급입니다. 자동차의 가속 시간이 길어질수록 일반적으로 마일당 연료 소비량 등급이 증가합니다.

그림 8. 마력과 마일당 갤런을 기준으로 한 그래프에서 음의 선형 관계를 확인할 수 있습니다.

그림 8. 자동차의 마력과 갤런당 마일(MPG) 등급입니다. 자동차의 마력이 증가하면 일반적으로 갤런당 마일(MPG) 등급이 감소합니다.

연습: 학습 내용 점검하기

학습 중에 선형 회귀 방정식의 어떤 부분이 업데이트되나요?
편향 및 가중치
학습 중에 모델은 편향과 가중치를 업데이트합니다.
예측
예측은 학습 중에 업데이트되지 않습니다.
특성 값
특성 값은 데이터 세트의 일부이므로 학습 중에 업데이트되지 않습니다.