Hồi quy tuyến tính: Mất

Mất mát là một chỉ số dạng số mô tả mức độ sai lệch của dự đoán của một mô hình. Hàm tổn thất đo lường khoảng cách giữa kết quả dự đoán của mô hình và nhãn thực tế. Mục tiêu của việc huấn luyện mô hình là giảm thiểu tổn thất, giảm tổn thất xuống giá trị thấp nhất có thể.

Trong hình ảnh sau, bạn có thể hình dung tổn thất dưới dạng các mũi tên được vẽ từ các điểm dữ liệu đến mô hình. Các mũi tên cho biết mức độ chênh lệch giữa giá trị dự đoán của mô hình và giá trị thực tế.

Hình 9. Đường tổn thất kết nối các điểm dữ liệu với mô hình.

Hình 9. Mức hao tổn được đo lường từ giá trị thực tế đến giá trị dự đoán.

Khoảng cách mất tín hiệu

Trong thống kê và học máy, tổn thất đo lường sự khác biệt giữa giá trị dự đoán và giá trị thực tế. Mất tập trung vào khoảng cách giữa các giá trị, chứ không phải hướng. Ví dụ: nếu một mô hình dự đoán là 2, nhưng giá trị thực tế là 5, thì chúng ta không quan tâm đến việc tổn thất là âm $ -3 $ ($ 2-5=-3 $). Thay vào đó, chúng ta quan tâm đến khoảng cách giữa các giá trị là $ 3 $. Do đó, tất cả các phương thức tính toán tổn thất đều xoá dấu.

Sau đây là hai phương pháp phổ biến nhất để xoá dấu này:

  • Lấy giá trị tuyệt đối của chênh lệch giữa giá trị thực tế và giá trị dự đoán.
  • Lấy bình phương của chênh lệch giữa giá trị thực tế và giá trị dự đoán.

Các loại tổn thất

Trong hồi quy tuyến tính, có 4 loại tổn thất chính, được nêu trong bảng sau.

Loại tổn thất Định nghĩa Phương trình
L1 loss Tổng giá trị tuyệt đối của chênh lệch giữa giá trị dự đoán và giá trị thực tế. $ ∑ | actual\ value - predicted\ value | $
Lỗi tuyệt đối trung bình (MAE) Giá trị trung bình của các tổn thất L1 trên một tập hợp các ví dụ. $ \frac{1}{N} ∑ | giá trị\ thực tế - giá trị\ dự đoán | $
Mất 2 Tổng chênh lệch bình phương giữa các giá trị dự đoán và giá trị thực tế. $ ∑(giá_trị_thực_tế - giá_trị_dự_đoán)^2 $
Sai số bình phương trung bình (MSE) Giá trị trung bình của các tổn thất L2 trên một tập hợp các ví dụ. $ \frac{1}{N} ∑ (giá_trị_thực_tế - giá_trị_dự_đoán)^2 $

Sự khác biệt về chức năng giữa tổn thất L1 và tổn thất L2 (hoặc giữa MAE và MSE) là bình phương. Khi chênh lệch giữa giá trị dự đoán và nhãn lớn, việc bình phương sẽ làm cho tổn thất lớn hơn nữa. Khi sự khác biệt nhỏ (dưới 1), việc bình phương sẽ làm cho tổn thất nhỏ hơn nữa.

Khi xử lý nhiều ví dụ cùng một lúc, bạn nên tính trung bình các tổn thất trên tất cả các ví dụ, cho dù sử dụng MAE hay MSE.

Ví dụ về cách tính tổn thất

Sử dụng đường phù hợp nhất trước đó, chúng ta sẽ tính toán tổn thất L2 cho một ví dụ. Từ đường phù hợp nhất, chúng ta có các giá trị sau cho trọng số và độ lệch:

  • $ \small{Weight: -3.6} $
  • $ \small{Bias: 30} $

Nếu mô hình dự đoán rằng một chiếc xe có trọng lượng 2.370 pound sẽ đi được 21,5 dặm/gallon, nhưng thực tế xe đi được 24 dặm/gallon, thì chúng ta sẽ tính toán tổn thất L2 như sau:

Giá trị Phương trình Kết quả
Dự đoán

$\small{bias + (weight * feature\ value)}$

$\small{30 + (-3.6*2.37)}$

$\small{21,5}$
Giá trị thực tế $ \small{ label } $ $ \small{ 24 } $
Mất L2

$ \small{ (giá trị\ thực tế - giá trị\ dự đoán)^2 } $

$\small{ (24 - 21.5)^2 }$

$\small{6,25}$

Trong ví dụ này, tổn thất L2 cho một điểm dữ liệu duy nhất đó là 6,25.

Chọn một hàm tổn hao

Việc quyết định sử dụng MAE hay MSE có thể phụ thuộc vào tập dữ liệu và cách bạn muốn xử lý một số dự đoán nhất định. Hầu hết các giá trị đặc điểm trong một tập dữ liệu thường nằm trong một phạm vi riêng biệt. Ví dụ: ô tô thường có trọng lượng từ 2.000 đến 5.000 pound và đi được từ 8 đến 50 dặm/gallon. Một chiếc xe nặng 8.000 pound hoặc một chiếc xe đi được 100 dặm/gallon nằm ngoài phạm vi thông thường và sẽ được coi là giá trị ngoại lai.

Giá trị ngoại lai cũng có thể đề cập đến mức độ chênh lệch giữa giá trị dự đoán của mô hình và giá trị thực. Ví dụ: 3.000 pound nằm trong phạm vi trọng lượng xe thông thường và 40 dặm/gallon nằm trong phạm vi tiết kiệm nhiên liệu thông thường. Tuy nhiên, một chiếc xe nặng 3.000 pound (1.360 kg) đi được 40 dặm (64 km)/gallon sẽ là một giá trị ngoại lai theo dự đoán của mô hình vì mô hình sẽ dự đoán rằng một chiếc xe nặng 3.000 pound sẽ đi được từ 18 đến 20 dặm (29 đến 32 km)/gallon.

Khi chọn hàm mất mát phù hợp nhất, hãy cân nhắc cách bạn muốn mô hình xử lý các giá trị ngoại lai. Ví dụ: MSE sẽ di chuyển mô hình nhiều hơn về phía các giá trị ngoại lai, còn MAE thì không. Mất mát L2 sẽ bị phạt nhiều hơn nhiều so với mất mát L1. Ví dụ: các hình ảnh sau đây cho thấy một mô hình được huấn luyện bằng MAE và một mô hình được huấn luyện bằng MSE. Đường màu đỏ đại diện cho một mô hình được huấn luyện đầy đủ sẽ được dùng để đưa ra dự đoán. Các giá trị ngoại lai gần với mô hình được huấn luyện bằng MSE hơn là mô hình được huấn luyện bằng MAE.

Hình 10. Mô hình này nghiêng nhiều hơn về phía các giá trị ngoại lai.

Hình 10. Mô hình được huấn luyện bằng MSE sẽ di chuyển mô hình gần với các giá trị ngoại lai hơn.

Hình 11. Mô hình nghiêng xa hơn so với các giá trị ngoại lai.

Hình 11 Mô hình được huấn luyện bằng MAE sẽ xa hơn các giá trị ngoại lai.

Lưu ý mối quan hệ giữa mô hình và dữ liệu:

  • MSE. Mô hình này gần với các giá trị ngoại lai nhưng lại xa hơn so với hầu hết các điểm dữ liệu khác.

  • MAE. Mô hình này nằm xa các điểm dữ liệu bất thường nhưng lại gần với hầu hết các điểm dữ liệu khác.

Kiểm tra mức độ hiểu biết

Hãy xem xét hai biểu đồ sau:

Biểu đồ gồm 10 điểm.
      Một đường chạy qua 6 trong số các điểm. 2 điểm cách đường thẳng 1 đơn vị; 2 điểm còn lại cách đường thẳng 1 đơn vị. Biểu đồ gồm 10 điểm. Một đường chạy qua 8 trong số các điểm. 1 điểm cách đường thẳng 2 đơn vị; 1 điểm khác cách đường thẳng 2 đơn vị.
Tập dữ liệu nào trong hai tập dữ liệu hiển thị trong các biểu đồ trước có Mean Squared Error (MSE) cao hơn?
Tập dữ liệu ở bên trái.
Tổng số lỗ của 6 ví dụ trên dòng này là 0. Bốn ví dụ không nằm trên đường thẳng không nằm quá xa đường thẳng, vì vậy, ngay cả khi bình phương độ lệch của chúng vẫn cho ra một giá trị thấp: $MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$
Tập dữ liệu ở bên phải.
Tám ví dụ trên dòng này có tổng tổn thất là 0. Tuy nhiên, mặc dù chỉ có hai điểm nằm ngoài đường thẳng, nhưng cả hai điểm đó đều cách đường thẳng gấp đôi so với các điểm ngoại lai trong hình bên trái. Lỗi bình phương làm tăng cường những khác biệt đó, vì vậy, độ lệch 2 sẽ gây ra tổn thất lớn gấp 4 lần so với độ lệch 1: $MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$