Overfitting: điều chỉnh L2

L2 điều hòa là một chỉ số điều hòa phổ biến, sử dụng công thức sau:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Ví dụ: bảng sau đây cho thấy cách tính chuẩn hoá L2 cho một mô hình có 6 trọng số:

Giá trị Giá trị bình phương
w1 0,2 0,04
w2 -0,5 0,25
w3 5 25,0
w4 -1,2 1,44
w5 0,3 0,09
w6 -0,1 0,01
    26,83 = tổng

Xin lưu ý rằng các trọng số gần bằng 0 không ảnh hưởng nhiều đến quy tắc điều hòa L2, nhưng các trọng số lớn có thể có tác động rất lớn. Ví dụ: trong phép tính trước đó:

  • Một trọng số duy nhất (w3) đóng góp khoảng 93% vào tổng độ phức tạp.
  • 5 trọng số còn lại chỉ đóng góp khoảng 7% vào độ phức tạp tổng thể.

Việc điều hòa L2 khuyến khích trọng số tiến đến 0, nhưng không bao giờ đẩy trọng số xuống 0.

Bài tập: Kiểm tra mức độ hiểu biết của bạn

Nếu bạn sử dụng phương pháp điều hòa L2 trong khi huấn luyện một mô hình, thì điều gì thường xảy ra với độ phức tạp tổng thể của mô hình?
Độ phức tạp tổng thể của hệ thống có thể sẽ giảm.
Vì quá trình điều chỉnh L2 khuyến khích trọng số tiến đến 0, nên độ phức tạp tổng thể có thể sẽ giảm.
Độ phức tạp tổng thể của mô hình có thể sẽ không đổi.
Điều này rất khó xảy ra.
Độ phức tạp tổng thể của mô hình có thể sẽ tăng lên.
Điều này khó có thể xảy ra. Hãy nhớ rằng việc điều chuẩn L2 khuyến khích các trọng số tiến về 0.
Nếu bạn sử dụng phương pháp chính quy L2 trong khi huấn luyện một mô hình, thì một số tính năng sẽ bị xoá khỏi mô hình.
Đúng
Mặc dù phương pháp điều hòa L2 có thể làm cho một số trọng số rất nhỏ, nhưng phương pháp này sẽ không bao giờ đẩy bất kỳ trọng số nào xuống 0. Do đó, tất cả các đặc điểm vẫn sẽ đóng góp một phần vào mô hình.
Sai
Việc điều hòa L2 không bao giờ đẩy trọng số xuống 0.

Hệ số điều hòa (lambda)

Như đã lưu ý, quá trình huấn luyện cố gắng giảm thiểu một số tổ hợp tổn thất và độ phức tạp:

$$\text{minimize(loss} + \text{ complexity)}$$

Nhà phát triển mô hình điều chỉnh mức tác động tổng thể của độ phức tạp đối với quá trình huấn luyện mô hình bằng cách nhân giá trị của độ phức tạp với một đại lượng vô hướng có tên là hệ số điều hòa. Ký tự lambda trong tiếng Hy Lạp thường biểu thị hệ số điều hòa.

Tức là nhà phát triển mô hình hướng đến những mục tiêu sau:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Tỷ lệ điều chỉnh cao:

  • Tăng cường ảnh hưởng của việc điều hòa, từ đó giảm khả năng xảy ra tình trạng khái quát hoá kém.
  • Có xu hướng tạo ra biểu đồ trọng số mô hình có các đặc điểm sau:
    • phân phối chuẩn
    • trọng số trung bình là 0.

Tỷ lệ điều hòa thấp:

  • Giảm ảnh hưởng của việc điều hòa, do đó làm tăng khả năng xảy ra tình trạng khái quát hoá kém.
  • Có xu hướng tạo ra biểu đồ tần suất của trọng số mô hình với phân phối phẳng.

Ví dụ: biểu đồ tần suất của các trọng số mô hình cho hệ số điều hòa cao có thể trông như trong Hình 18.

Hình 18. Biểu đồ tần suất về trọng số của một mô hình có giá trị trung bình bằng 0 và phân phối chuẩn.
Hình 18. Biểu đồ trọng số cho hệ số điều hòa cao. Giá trị trung bình là 0. Phân phối chuẩn.

 

Ngược lại, hệ số điều hòa thấp có xu hướng tạo ra biểu đồ phẳng hơn, như minh hoạ trong Hình 19.

Hình 19. Biểu đồ trọng số của một mô hình có giá trị trung bình bằng 0, nằm ở đâu đó giữa phân phối phẳng và phân phối chuẩn.
Hình 19. Biểu đồ trọng số cho hệ số điều hòa thấp. Giá trị trung bình có thể bằng 0 hoặc không.

 

Chọn hệ số điều hoà

Hệ số điều hòa lý tưởng tạo ra một mô hình tổng quát hoá tốt cho dữ liệu mới, chưa từng thấy trước đây. Rất tiếc, giá trị lý tưởng đó phụ thuộc vào dữ liệu, vì vậy, bạn phải điều chỉnh điều chỉnh.

Dừng sớm: một lựa chọn thay thế cho phương pháp điều chuẩn dựa trên độ phức tạp

Dừng sớm là một phương pháp điều hòa không liên quan đến việc tính toán độ phức tạp. Thay vào đó, việc dừng sớm chỉ đơn giản là kết thúc quá trình huấn luyện trước khi mô hình hội tụ hoàn toàn. Ví dụ: bạn kết thúc quá trình huấn luyện khi đường cong tổn thất cho tập xác nhận bắt đầu tăng (độ dốc trở nên dương).

Mặc dù việc dừng sớm thường làm tăng tổn thất khi huấn luyện, nhưng có thể làm giảm tổn thất khi kiểm thử.

Dừng sớm là một hình thức điều chỉnh nhanh chóng nhưng hiếm khi tối ưu. Mô hình thu được rất khó có thể tốt bằng một mô hình được huấn luyện kỹ lưỡng với hệ số điều hòa lý tưởng.

Tìm điểm cân bằng giữa tốc độ học tập và hệ số điều hòa

Tốc độ học và hệ số điều hòa có xu hướng di chuyển trọng số theo hướng ngược nhau. Tốc độ học cao thường kéo trọng số ra khỏi số 0; hệ số điều hòa cao sẽ đẩy trọng số về phía số 0.

Nếu hệ số điều hòa cao so với tốc độ học, thì các trọng số yếu có xu hướng tạo ra một mô hình đưa ra dự đoán kém. Ngược lại, nếu tốc độ học cao so với tốc độ điều chuẩn, thì các trọng số mạnh có xu hướng tạo ra một mô hình khớp quá mức.

Mục tiêu của bạn là tìm ra điểm cân bằng giữa tốc độ học và hệ số điều hòa. Điều này có thể sẽ không dễ dàng. Điều tồi tệ nhất là một khi tìm được sự cân bằng khó nắm bắt đó, cuối cùng bạn có thể phải thay đổi tốc độ học. Và khi thay đổi tốc độ học, bạn sẽ phải tìm lại hệ số điều hòa lý tưởng.