ML로 전환하기: 학습 및 손실

모델을 학습시킨다는 것은 간단히 말하자면 라벨이 있는 데이터를 바탕으로 모든 가중치와 편향의 양호한 값을 학습 (결정)하는 것입니다. 지도 학습에서 머신러닝 알고리즘은 많은 예를 검사하고 손실을 최소화하는 모델을 찾으려고 시도함으로써 모델을 빌드합니다. 이 프로세스를 경험적 위험 최소화라고 합니다.

손실은 잘못된 예측에 대한 페널티입니다. 즉, 손실은 하나의 예에 대한 모델의 예측이 얼마나 잘못되었는지를 나타내는 숫자입니다. 모델의 예측이 완벽하면 손실은 0이고 그렇지 않으면 손실은 그보다 커집니다. 모델 학습의 목표는 모든 예시에서 평균적으로 손실이 낮은 가중치와 편향의 집합을 찾는 것입니다. 예를 들어 그림 3은 왼쪽에는 손실이 높은 모델, 오른쪽에는 손실이 적은 모델을 보여줍니다. 그림에 관한 다음 사항에 유의하세요.

  • 화살표는 손실을 나타냅니다.
  • 파란색 선은 예측을 나타냅니다.

두 개의 데카르트 플롯에는 각각 선과 데이터 포인트가 표시됩니다. 첫 번째 그래프에서 선이 데이터에 전혀 적합하지 않으므로 손실이 높습니다. 두 번째 도표에서는 선이 데이터에 더 적합하므로 손실이 낮습니다.

그림 3. 왼쪽 모델은 손실이 많고 오른쪽 모델은 손실이 작음

 

왼쪽 플롯의 화살표가 오른쪽 플롯의 화살표보다 훨씬 깁니다. 오른쪽 도표의 선은 왼쪽 도표의 선보다 훨씬 더 좋은 예측 모델입니다.

개별 손실을 유의미한 방식으로 집계하는 수학적 함수인 손실 함수를 만들 수 있는지 궁금할 수 있습니다.

여기에서 살펴볼 선형 회귀 모델은 제곱 손실(L2 손실이라고도 함)이라는 손실 함수를 사용합니다. 예시 하나의 제곱 손실은 다음과 같습니다.

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

평균 제곱 오차(MSE)는 전체 데이터 세트에 대한 예시당 평균 제곱 손실입니다. MSE를 계산하려면 개별 예의 모든 제곱 손실을 합산한 후 예시 수로 나눕니다.

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

각 매개변수는 다음과 같습니다.

  • \((x, y)\) 는 다음과 같은 예입니다.
    • \(x\) 는 모델이 예측하는 데 사용하는 특성 집합 (예: 분당 우는 소리, 연령, 성별)입니다.
    • \(y\) 는 예시 라벨입니다 (예: 온도).
  • \(prediction(x)\) 는 특성 세트와 결합된 가중치 및 편향의 함수입니다 \(x\).
  • \(D\) 는 라벨이 있는 여러 예를 포함하는 데이터 세트이며, 이를 \((x, y)\) 쌍입니다.
  • \(N\) 는 \(D\)의 예시 수입니다.

MSE는 머신러닝에서 흔히 사용되지만 모든 상황에서 유용한 유일한 손실 함수이거나 최선의 손실 함수는 아닙니다.