Giảm dần vào công nghệ máy học: Đào tạo và mất mát

Đào tạo một mô hình chỉ đơn giản có nghĩa là học (xác định) giá trị phù hợp cho tất cả các trọng số và độ chệch từ các ví dụ có gắn nhãn. Trong quá trình học có giám sát, thuật toán của máy học sẽ xây dựng một mô hình bằng cách kiểm tra nhiều ví dụ và cố gắng tìm một mô hình giúp giảm thiểu tổn thất. Quá trình này được gọi là giảm thiểu rủi ro theo kinh nghiệm.

Tỷ lệ thua là hình phạt khi dự đoán sai. Điều này có nghĩa là sự mất mát là một con số cho biết mức độ dự đoán của mô hình về một ví dụ duy nhất. Nếu dự đoán của mô hình là hoàn hảo, thì tổn thất sẽ bằng 0; nếu không thì tổn thất sẽ lớn hơn. Mục tiêu của việc đào tạo một mô hình là tìm một tập hợp các trọng số và độ chệch có mức giảm trung bình thấp trên tất cả các ví dụ. Ví dụ: Hình 3 cho thấy một mô hình mức độ hao tổn cao ở bên trái và mô hình có mức độ mất mát thấp ở bên phải. Xin lưu ý những điều sau về hình tượng:

  • Các mũi tên thể hiện tổn thất.
  • Các đường màu xanh dương biểu thị thông tin dự đoán.

Hai biểu đồ Cartesian, mỗi biểu đồ hiển thị một đường và một số điểm dữ liệu. Trong biểu đồ đầu tiên, đường kẻ không phù hợp với dữ liệu, vì vậy tổn thất cao. Trong biểu đồ thứ hai, đường hiển thị phù hợp hơn với dữ liệu, vì vậy mức độ thất thoát thấp.

Hình 3. Mô hình bên trái giảm mạnh; mức giảm mạnh trong mô hình bên phải.

 

Lưu ý rằng các mũi tên trong biểu đồ bên trái dài hơn nhiều so với các mũi tên trong biểu đồ bên phải. Rõ ràng, đường kẻ trong ô bên phải là một mô hình dự đoán hiệu quả hơn nhiều so với đường kẻ trong ô bên trái.

Bạn có thể thắc mắc liệu mình có thể tạo một hàm toán học (hàm mất dữ liệu) hay không, sẽ tổng hợp các tổn thất riêng lẻ theo một cách có ý nghĩa.

Các mô hình hồi quy tuyến tính mà chúng ta sẽ kiểm tra ở đây sử dụng hàm mất mát có tên là Mất bình phương (còn gọi là giảm L2). Tỷ lệ mất bình phương cho một ví dụ như sau:

  = the square of the difference between the label and the prediction
  = (observation - prediction(x))2
  = (y - y')2

Lỗi bình phương trung bình (MSE) là mức mất bình phương trung bình của mỗi ví dụ trong toàn bộ tập dữ liệu. Để tính MSE, hãy tính tổng tất cả các tổn thất bình phương cho từng ví dụ rồi chia cho số ví dụ:

$$ MSE = \frac{1}{N} \sum_{(x,y)\in D} (y - prediction(x))^2 $$

nơi:

  • \((x, y)\) là một ví dụ trong đó
    • \(x\) là tập hợp các tính năng (ví dụ: độ chi tiết/phút, độ tuổi, giới tính) mà mô hình sử dụng để đưa ra dự đoán.
    • \(y\) là nhãn mẫu của ví dụ (ví dụ: nhiệt độ).
  • \(prediction(x)\) là hàm kết hợp giữa trọng số và độ chệch với tập hợp các tính năng \(x\).
  • \(D\) là tập dữ liệu chứa nhiều ví dụ có gắn nhãn, đây là các cặp \((x, y)\) .
  • \(N\) là số ví dụ trong \(D\).

Mặc dù MSE thường được sử dụng trong công nghệ máy học, nhưng đây không phải là hàm ra mắt thực tế duy nhất, cũng như không phải là hàm mất hiệu quả nhất trong mọi trường hợp.