Mất là chỉ số dạng số mô tả độ sai lệch của các dự đoán của một mô hình. Hàm tổn thất đo lường khoảng cách giữa kết quả dự đoán của mô hình và nhãn thực tế. Mục tiêu của việc huấn luyện mô hình là giảm thiểu tổn thất, giảm tổn thất xuống giá trị thấp nhất có thể.
Trong hình ảnh sau, bạn có thể hình dung tổn thất dưới dạng các mũi tên được vẽ từ các điểm dữ liệu đến mô hình. Các mũi tên cho biết mức độ chênh lệch giữa giá trị dự đoán của mô hình và giá trị thực tế.
Hình 9. Mức hao tổn được đo lường từ giá trị thực tế đến giá trị dự đoán.
Khoảng cách mất tín hiệu
Trong thống kê và học máy, tổn thất đo lường sự khác biệt giữa giá trị dự đoán và giá trị thực tế. Mất tập trung vào khoảng cách giữa các giá trị, chứ không phải hướng. Ví dụ: nếu một mô hình dự đoán là 2, nhưng giá trị thực tế là 5, thì chúng ta không quan tâm đến việc tổn thất là âm $ -3 $ ($ 2-5=-3 $). Thay vào đó, chúng ta quan tâm rằng khoảng cách giữa các giá trị là $ 3 $. Như vậy, tất cả các phương pháp tính tổn thất sẽ xoá dấu đó.
Sau đây là hai phương pháp phổ biến nhất để xoá dấu này:
- Lấy giá trị tuyệt đối của chênh lệch giữa giá trị thực tế và giá trị dự đoán.
- Lấy bình phương của chênh lệch giữa giá trị thực tế và giá trị dự đoán.
Các loại tổn thất
Trong hồi quy tuyến tính, có 4 loại tổn thất chính, được nêu trong bảng sau.
Loại tổn thất | Định nghĩa | Phương trình |
---|---|---|
Tổn thất L1 | Tổng giá trị tuyệt đối của chênh lệch giữa giá trị dự đoán và giá trị thực tế. | $ ∑ | actual\ value - predicted\ value | $ |
Lỗi tuyệt đối trung bình (MAE) | Giá trị trung bình của các tổn thất L1 trên một tập hợp các ví dụ. | $ \frac{1}{N} ∑ | giá trị\ thực tế - giá trị\ dự đoán | $ |
Mất 2 | Tổng chênh lệch bình phương giữa các giá trị dự đoán và giá trị thực tế. | $ ∑(giá_trị_thực_tế - giá_trị_dự_đoán)^2 $ |
Sai số bình phương trung bình (MSE) | Giá trị trung bình của các tổn thất L2 trên một tập hợp các ví dụ. | $ \frac{1}{N} ∑ (giá_trị_thực_tế - giá_trị_dự_đoán)^2 $ |
Sự khác biệt về chức năng giữa tổn thất L1 và tổn thất L2 (hoặc giữa MAE và MSE) là bình phương. Khi chênh lệch giữa giá trị dự đoán và nhãn lớn, việc bình phương sẽ làm cho tổn thất lớn hơn nữa. Khi sự khác biệt nhỏ (dưới 1), việc bình phương sẽ làm cho tổn thất nhỏ hơn nữa.
Khi xử lý nhiều ví dụ cùng một lúc, bạn nên tính trung bình các tổn thất trên tất cả các ví dụ, cho dù sử dụng MAE hay MSE.
Ví dụ về cách tính tổn thất
Sử dụng đường phù hợp nhất trước đó, chúng ta sẽ tính toán tổn thất L2 cho một ví dụ. Từ đường phù hợp nhất, chúng ta có các giá trị sau cho trọng số và độ lệch:
- $ \small{Weight: -3.6} $
- $ \small{Bias: 30} $
Nếu mô hình dự đoán rằng một chiếc xe có trọng lượng 2.370 pound sẽ đi được 21,5 dặm/gallon, nhưng thực tế xe đi được 24 dặm/gallon, thì chúng ta sẽ tính toán tổn thất L2 như sau:
Giá trị | Phương trình | Kết quả |
---|---|---|
Dự đoán | $\small{bias + (trọng số * tính năng\ giá trị)}$ $\small{30 + (-3.6*2.37)}$ |
$\small{21,5}$ |
Giá trị thực tế | $ \small{ label } $ | $ \small{ 24 } $ |
Mất L2 | $ \small{ (giá trị dự đoán – giá trị thực tế)^2} $ $\small{ (21,5 - 24)^2 }$ |
$\small{6,25}$ |
Trong ví dụ này, mức tổn thất L2 cho một điểm dữ liệu là 6,25.
Chọn một hàm tổn hao
Việc quyết định sử dụng MAE hay MSE có thể phụ thuộc vào tập dữ liệu và cách bạn muốn xử lý một số dự đoán nhất định. Hầu hết các giá trị đặc điểm trong một tập dữ liệu thường nằm trong một phạm vi riêng biệt. Ví dụ: ô tô thường có trọng lượng từ 2.000 đến 5.000 pound và đi được từ 8 đến 50 dặm/gallon. Một chiếc xe nặng 8.000 pound hoặc một chiếc xe đi được 100 dặm/gallon nằm ngoài phạm vi thông thường và sẽ được coi là giá trị ngoại lai.
Giá trị ngoại lai cũng có thể đề cập đến mức độ chênh lệch giữa giá trị dự đoán của mô hình và giá trị thực. Ví dụ: một chiếc ô tô nặng 3.000 pound hoặc một chiếc ô tô đi được 40 dặm mỗi gallon đều nằm trong phạm vi thông thường. Tuy nhiên, một chiếc xe nặng 3.000 pound mà nhận được 40 dặm mỗi gallon sẽ là một trường hợp ngoại lệ về mặt dự đoán của mô hình vì mô hình này sẽ dự đoán rằng một chiếc xe 3.000 pound sẽ đi được từ 18 đến 20 dặm mỗi gallon.
Khi chọn hàm mất mát phù hợp nhất, hãy cân nhắc cách bạn muốn mô hình xử lý các giá trị ngoại lai. Ví dụ: MSE sẽ di chuyển mô hình nhiều hơn về phía các giá trị ngoại lai, còn MAE thì không. Mất mát L2 sẽ bị phạt nhiều hơn nhiều so với mất mát L1. Ví dụ: các hình ảnh sau đây cho thấy một mô hình được huấn luyện bằng MAE và một mô hình được huấn luyện bằng MSE. Đường màu đỏ đại diện cho một mô hình được huấn luyện đầy đủ sẽ được dùng để đưa ra dự đoán. Các giá trị ngoại lai gần với mô hình được huấn luyện bằng MSE hơn so với mô hình được huấn luyện bằng MAE.
Hình 10. Mô hình được huấn luyện bằng MSE sẽ di chuyển mô hình gần với các giá trị ngoại lai hơn.
Hình 11 Mô hình được huấn luyện bằng MAE sẽ xa hơn các giá trị ngoại lai.
Lưu ý mối quan hệ giữa mô hình và dữ liệu:
MSE. Mô hình này gần với các giá trị ngoại lai nhưng lại xa hơn so với hầu hết các điểm dữ liệu khác.
MAE. Mô hình này nằm xa các điểm dữ liệu bất thường nhưng lại gần với hầu hết các điểm dữ liệu khác.
Kiểm tra mức độ hiểu biết
Hãy xem xét hai biểu đồ sau: