ML로 내림차순: 선형 회귀

오래전부터 귀뚜라미 (곤충 종)는 시원한 날보다 더운 날 더 자주 우는 것으로 알려져 있습니다. 수십 년 동안 전문 및 아마추어 과학자들은 분당 우는 소리와 온도에 관한 데이터를 카탈로그했습니다. 루스 이모는 생일 선물로 크리켓 데이터베이스를 선물하고 이 관계를 예측하는 모델을 배우라고 합니다. 이 데이터를 사용해 이 관계를 살펴보고자 합니다.

먼저 데이터를 표시하는 방법으로

1분당 우는 횟수 (x축)와 온도 (y축)의 원시 데이터

그림 1. 1분당 우는 횟수와 섭씨의 온도 비교

예상대로 그림에는 우는 횟수가 증가하면서 온도가 상승하는 모습이 나와 있습니다. 우는 소리와 온도는 선형 관계인가요? 예. 다음과 같이 직선을 한 개 그려서 이 관계를 추정할 수 있습니다.

1분당 우는 횟수 (x축)와 온도 (y축)의 관계를 보여주는 최고의 직선

그림 2. 선형 관계.

사실 선이 모든 점을 통과하지는 않지만, 우는 소리와 온도는 관계를 명확하게 보여줍니다. 선에 방정식을 사용하면 이 관계를 다음과 같이 작성할 수 있습니다.

$$ y = mx + b $$

각 매개변수는 다음과 같습니다.

  • \(y\) 는 예측하려는 온도인 섭씨입니다.
  • \(m\) 는 선의 기울기입니다.
  • \(x\) 는 분당 우는 횟수이며, 입력 특성의 값입니다.
  • \(b\) 은 y 절편입니다.

머신러닝의 관례에 따라 모델의 방정식을 약간 다르게 작성합니다.

$$ y' = b + w_1x_1 $$

각 매개변수는 다음과 같습니다.

  • \(y'\) 은 예측된 라벨(원하는 출력)입니다.
  • \(b\) 는 편향이라고 칭하는 y 절편이며 \(w_0\)이라고도 합니다.
  • \(w_1\) 은 특성 1의 가중치입니다. 가중치는 선의 전통적인 등식에서 \(m\) 기울기와 동일합니다.
  • \(x_1\) 은 특성(알려진 입력)입니다.

새 분당 우는 횟수 \(y'\) 값으로 온도를 추론 (예측)하려면 \(x_1\)이 모델에 \(x_1\) 값을 바꾸면 됩니다.

이 모델에서는 하나의 특성만 사용하지만 보다 정교한 모델은 각각 별도의 가중치(\(w_1\), \(w_2\)등)를 갖는 여러 특성을 사용할 수 있습니다. 예를 들어 세 가지 특성을 사용하는 모델은 다음과 같을 수 있습니다.

$$y' = b + w_1x_1 + w_2x_2 + w_3x_3$$