선형 회귀

이 모듈에서는 선형 회귀 개념을 소개합니다.

선형 회귀는 변수 간의 관계를 찾는 데 사용되는 통계 기법입니다. ML 컨텍스트에서 선형 회귀는 특성과 라벨 간의 관계를 찾습니다.

예를 들어 자동차의 무게를 기반으로 갤런당 마일로 자동차의 연비를 예측하려고 하고 다음과 같은 데이터 세트가 있다고 가정해 보겠습니다.

파운드(1,000단위)(기능)	갤런당 마일(라벨)
3.5	18
3.69	15
3.44	18
3.43	16
4.34	15
4.42	14
2.37	24

이러한 점을 그래프로 표시하면 다음과 같은 그래프가 됩니다.

그림 1. 왼쪽에서 오른쪽으로 아래쪽으로 기울어진 추세를 보여주는 데이터 포인트

그림 1. 자동차 무게 (파운드)와 갤런당 마일 등급의 관계 자동차가 무거워지면 일반적으로 갤런당 마일 수가 줄어듭니다.

점을 통과하는 최적선을 그려 자체 모델을 만들 수 있습니다.

그림 2. 모델을 나타내는 최적선이 그려진 데이터 포인트

그림 2. 이전 그림의 데이터를 통해 그려진 최적선

선형 회귀 방정식

대수학적 용어로 모델은 $ y = mx + b $로 정의됩니다. 여기서

$ y $ 는 갤런당 마일 수이며, 예측하려는 값입니다.
$ m $ 은 선의 기울기입니다.
$ x $ 는 파운드(입력 값)입니다.
$ b $ 는 y절편입니다.

ML에서는 선형 회귀 모델의 방정식을 다음과 같이 작성합니다.

$$ y' = b + w_1x_1 $$

각 항목의 의미는 다음과 같습니다.

$ y' $ 는 예측된 라벨(출력)입니다.
$ b $ 는 모델의 편향입니다. 편향은 선의 대수 방정식에서 y 절편과 동일한 개념입니다. ML에서 편향은 $ w_0 $라고도 합니다. 편향은 모델의 매개변수이며 학습 중에 계산됩니다.
$ w_1 $ 은 기능의 가중치입니다. 가중치는 선의 대수 방정식에서 기울기 $ m $ 과 동일한 개념입니다. 가중치는 모델의 매개변수이며 학습 중에 계산됩니다.
$ x_1 $ 은 특성, 즉 입력입니다.

학습 중에 모델은 최적의 모델을 생성하는 가중치와 편향을 계산합니다.

그림 3. 각 구성요소에 목적이 주석으로 표시된 방정식 y' = b + w1x1

그림 3. 선형 모델의 수학적 표현입니다.

이 예시에서는 그린 선에서 가중치와 편향을 계산합니다. 편향은 34 (선이 y축과 교차하는 지점)이고 가중치는 -4.6 (선의 기울기)입니다. 모델은 $ y' = 34 + (-4.6)(x_1) $로 정의되며 이를 사용하여 예측할 수 있습니다. 예를 들어 이 모델을 사용하면 4,000파운드 자동차의 예상 연비는 갤런당 15.6마일입니다.

그림 4. 그림 2와 동일한 그래프에서 (4, 15.6) 지점이 강조 표시되어 있습니다.