선형 회귀: 손실

손실은 문제를 설명하는 수치 측정항목입니다. 모델의 예측이 얼마나 잘못되었는지 있습니다. 손실은 모델의 예측과 실제 데이터 사이의 거리를 측정합니다. 라벨을 지정합니다 모델 학습의 목표는 손실을 최소화하여 손실을 최대한 줄이는 것입니다. 가능한 가장 낮은 값입니다.

다음 이미지에서는 손실을 데이터에서 그린 화살표로 시각화할 수 있습니다. 모델을 가리키기도 합니다. 화살표는 모델의 예측이 얼마나 멀리 떨어져 있는지 보여줍니다. 확인해 보겠습니다.

그림 9. 손실선은 데이터 포인트를
있습니다.

그림 9. 손실은 실제 값에서 예측 값까지 측정됩니다.

손실 거리

통계와 머신러닝에서 손실은 예측 값과 실제 값이 있습니다. 손실은 값 사이의 거리에 초점을 맞춥니다. 방향이 아니라 예를 들어 모델이 2로 예측하지만 실제 값이 5, 손실이 음의 $ -3 $ ($ 2-5=-3 $)인지는 상관없습니다. 여기서는 값 사이의 거리를 $ 3 $로 설정합니다. 따라서 손실을 계산하는 방법은 기호를 제거합니다.

이 기호를 제거하는 가장 일반적인 두 가지 방법은 다음과 같습니다.

  • 실제 값과 학습합니다.
  • 실제 값과 예측 간의 차이를 제곱합니다.

손실 유형

선형 회귀에는 4가지 주요 손실 유형이 있으며, 다음 표를 참조하세요.

손실 유형 정의 등식
L1 손실 차이의 절댓값 합계입니다. 얼마나 차이가 나는지를 잘 보여줍니다. $ ↩ | 실제\ 값 - 예측된 값 | ₩
평균 절대 오차 (MAE) 일련의 예에 대한 L1 손실의 평균입니다. $ \frac{1}{N} ∑ | 실제\ 값 - 예측된 값 | ₩
L2 손실 제곱 차이의 합입니다. 얼마나 차이가 나는지를 잘 보여줍니다. $ 鉛(실제\ 값 - 예측\ 값)^2 $
평균 제곱 오차 (MSE) 일련의 예에 대한 평균 L2 손실입니다. $ \frac{1}{N} ↘ (실제\ 값 - 예측\ 값)^2 $

L1 손실과 L2 손실의 기능적 차이 (또는 MAE와 MSE 사이)는 제곱됩니다. 인코더-디코더와 예측과 라벨이 크면 제곱하기 때문에 손실이 훨씬 커집니다. 이 차이가 작으면 (1보다 작음), 제곱하면 손실이 훨씬 작아집니다.

여러 예시를 한 번에 처리하는 경우 손실을 평균화하는 것이 좋습니다. 모델을 학습시킬 수 있습니다

손실 계산 예

이전의 가장 적합한 선을 사용하여 한 가지 예에서 L2 손실을 계산합니다. 가장 적합한 선에서 가중치와 편향에 대해 다음과 같은 값을 구했습니다.

  • $ \small{무게: -3.6} $
  • $ \small{편향: 30} $

모델이 2,370파운드의 자동차가 갤런당 21.5마일을 운전한다고 예측했지만 갤런당 24마일을 얻는다면 다음과 같이 L2 손실을 다음과 같습니다.

등식 결과
예측

$\small{편향 + (가중치 * 특성\ 값)}$

$\small{30 + (-3.6*2.37)}$

$\small{21.5}$
실제 금액 $ \small{ 라벨 } $ $ \small{ 24 } $
L2 손실

$ \small{ (예측 - 실제\ 값)^2} $

$\small{ (21.5 - 24)^2 }$

$\small{6.25}$

이 예에서 단일 데이터 포인트의 L2 손실은 6.25입니다.

손실 선택

MAE와 MSE 중 무엇을 사용할지 결정은 데이터 세트와 처리하려고 한다고 가정해 보겠습니다 데이터 세트에 있는 대부분의 특성값은 일반적으로 고유한 범위에 속하는지 확인합니다. 예를 들어 자동차는 일반적으로 2000에서 갤런당 8 ~ 50마일이 듭니다. 8,000파운드짜리 자동차, 갤런당 100마일을 달리는 자동차는 일반적인 범위를 벗어나서 이상점으로 간주되어야 합니다.

이상점은 모델의 예측이 실제와 얼마나 차이가 나는지를 나타낼 수도 있습니다. 값으로 사용됩니다. 예: 3,000파운드의 자동차 또는 갤런당 40마일을 주행하는 자동차 일반적인 범위 내에 있는 것입니다. 그러나 3,000파운드짜리 자동차는 갤런당 40마일은 모델의 예측 측면에서 이상점일 것입니다. 모델이 3,000파운드짜리 자동차의 18~10.5kg이 갤런당 20마일.

최적의 손실 함수를 선택할 때 모델이 어떻게 처리할지 고려하세요. 이상점과 관련이 있습니다. 예를 들어 MSE는 모델을 이상점 쪽으로 이동하고 MAE는 않습니다. L2 손실은 L1 손실. 예를 들어 다음 이미지는 모델을 학습시키는 작업도 반복해야 합니다 빨간색 선은 예측을 수행하는 데 사용될 학습 모델을 정의합니다. 이상점이 더 높습니다.

그림 10. 모델이 이상점을 향해 더 기울어집니다.

그림 10. MSE로 학습된 모델은 모델을 이상점에 가깝게 이동합니다.

그림 11. 모델이 이상점에서 더 멀리 기울어집니다.

그림 11. MAE로 학습된 모델은 이상점과는 거리가 멉니다.

모델과 데이터의 관계에 주목하세요.

  • MSE. 모델이 이상점에 더 가깝지만 대부분의 경우에서 더 멀리 떨어져 있습니다. 확인할 수 있습니다

  • MAE). 모델은 이상점에서 더 멀리 떨어져 있지만 대부분의 경우 확인할 수 있습니다

이해도 확인

다음 두 도표를 살펴보세요.

점 10개가 있는 도표
      선이 6개의 점을 통과합니다. 2포인트가 1단위입니다.
      선 위에 배치되어 있습니다. 다른 2개 점은 선 아래 한 단위 아래에 있습니다. 점 10개가 있는 도표 선이 실행됨
      8개의 포인트가 주어집니다. 1포인트는 2단위입니다.
      선 위에 배치되어 있습니다. 다른 점 1개는 선 아래 2단위입니다.
위 도표에 표시된 두 가지 데이터 세트는 무엇인가요? 평균 제곱 오차 (MSE)가 더 높은가요?
왼쪽의 데이터 세트입니다.
선에 있는 6개의 예시가 발생하는 총 손실은 0입니다. 사 라인에 없는 예제는 그리 멀지 않기 때문에 오프셋을 제곱하면 여전히 낮은 값이 생성됩니다. $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
오른쪽의 데이터 세트
선에 있는 8개의 예시는 총 손실이 0입니다. 하지만 두 점 모두 선에서 벗어나지만 점이 이상점에 비해 선에서 2배 더 깁니다. 살펴보겠습니다 제곱 손실은 이러한 차이를 증폭시키며, 따라서 오프셋 2는 오프셋보다 4배 큰 손실을 야기합니다. 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$