Chuẩn hoá để đơn giản hoá: Chính quy L2

Hãy xem xét đường cong tổng quát sau đây để thể hiện mức mất mát của cả tập hợp huấn luyện và tập hợp xác thực dựa trên số lần lặp lại của huấn luyện.

Hàm ngừng sử dụng cho tập hợp huấn luyện giảm dần. Ngược lại, hàm mất dữ liệu của tập hợp xác thực giảm, nhưng sau đó bắt đầu tăng lên.

Hình 1. Mất do tập hợp huấn luyện và tập xác thực.

Hình 1 cho thấy một mô hình trong đó thời gian đào tạo giảm dần, nhưng mức độ xác thực giảm dần. Nói cách khác, đường cong tổng quát này cho thấy mô hình đang tích hợp dữ liệu trong tập huấn luyện. Theo dõi Ockham nội tại của chúng ta, có lẽ chúng ta có thể ngăn chặn tình trạng quá mức bằng cách phạt các mô hình phức tạp, một nguyên tắc gọi là quy chuẩn hoá.

Nói cách khác, thay vì chỉ nhắm đến giảm thiểu tổn thất (giảm thiểu rủi ro theo thực nghiệm):

$$\text{minimize(Loss(Data|Model))}$$

giờ đây, chúng tôi sẽ giảm thiểu tình trạng mất dữ liệu+độ phức tạp, được gọi là giảm thiểu rủi ro về cấu trúc:

$$\text{minimize(Loss(Data|Model) + complexity(Model))}$$

Thuật toán tối ưu hoá huấn luyện của chúng tôi hiện là một hàm gồm 2 thuật ngữ: số hạng từ khoá (dùng để đo lường mức độ phù hợp của mô hình với dữ liệu) và thuật ngữ chính quy (đo lường độ phức tạp của mô hình).

Khoá học sự cố về học máy tập trung vào hai cách phổ biến (và có phần liên quan) để tư duy về độ phức tạp của mô hình:

  • Độ phức tạp của mô hình dưới dạng một hàm của trọng số của tất cả tính năng trong mô hình.
  • Độ phức tạp của mô hình dưới dạng một hàm của tổng số tính năng có trọng số khác 0. (Một mô-đun sau sẽ đề cập đến phương pháp này.)

Nếu độ phức tạp của mô hình là một hàm của trọng số, thì trọng số của tính năng có giá trị tuyệt đối cao sẽ phức tạp hơn trọng số tính năng có giá trị tuyệt đối thấp.

Chúng ta có thể định lượng độ phức tạp bằng cách sử dụng công thức chính quy L2. Công thức này xác định thuật ngữ chính quy là tổng các bình phương của tất cả trọng số của tính năng:

$$L_2\text{ regularization term} = ||\boldsymbol w||_2^2 = {w_1^2 + w_2^2 + ... + w_n^2}$$

Trong công thức này, trọng số gần bằng 0 ít ảnh hưởng đến độ phức tạp của mô hình, trong khi trọng số ngoại lệ có thể có tác động rất lớn.

Ví dụ: mô hình tuyến tính có các trọng số sau:

$$\{w_1 = 0.2, w_2 = 0.5, w_3 = 5, w_4 = 1, w_5 = 0.25, w_6 = 0.75\}$$

Có thuật ngữ chuẩn hoá L2 là 26.915:

$$w_1^2 + w_2^2 + \boldsymbol{w_3^2} + w_4^2 + w_5^2 + w_6^2$$ $$= 0.2^2 + 0.5^2 + \boldsymbol{5^2} + 1^2 + 0.25^2 + 0.75^2$$ $$= 0.04 + 0.25 + \boldsymbol{25} + 1 + 0.0625 + 0.5625$$ $$= 26.915$$

Tuy nhiên, \(w_3\) (được in đậm ở trên), với giá trị bình phương là 25, góp phần gần như trở nên phức tạp. Tổng các bình phương của cả 5 trọng số khác chỉ thêm 1,915 vào thuật ngữ chính quy L2.