L2 điều hòa là một chỉ số điều hòa phổ biến, sử dụng công thức sau:
Ví dụ: bảng sau đây cho thấy cách tính chuẩn hoá L2 cho một mô hình có 6 trọng số:
| Giá trị | Giá trị bình phương | |
|---|---|---|
| w1 | 0,2 | 0,04 |
| w2 | -0,5 | 0,25 |
| w3 | 5 | 25,0 |
| w4 | -1,2 | 1,44 |
| w5 | 0,3 | 0,09 |
| w6 | -0,1 | 0,01 |
| 26,83 = tổng |
Xin lưu ý rằng các trọng số gần bằng 0 không ảnh hưởng nhiều đến quy tắc điều hòa L2, nhưng các trọng số lớn có thể có tác động rất lớn. Ví dụ: trong phép tính trước đó:
- Một trọng số duy nhất (w3) đóng góp khoảng 93% vào tổng độ phức tạp.
- 5 trọng số còn lại chỉ đóng góp khoảng 7% vào độ phức tạp tổng thể.
Việc điều hòa L2 khuyến khích trọng số tiến đến 0, nhưng không bao giờ đẩy trọng số xuống 0.
Bài tập: Kiểm tra mức độ hiểu biết của bạn
Hệ số điều hòa (lambda)
Như đã lưu ý, quá trình huấn luyện cố gắng giảm thiểu một số tổ hợp tổn thất và độ phức tạp:
Nhà phát triển mô hình điều chỉnh mức tác động tổng thể của độ phức tạp đối với quá trình huấn luyện mô hình bằng cách nhân giá trị của độ phức tạp với một đại lượng vô hướng có tên là hệ số điều hòa. Ký tự lambda trong tiếng Hy Lạp thường biểu thị hệ số điều hòa.
Tức là nhà phát triển mô hình hướng đến những mục tiêu sau:
Tỷ lệ điều chỉnh cao:
- Tăng cường ảnh hưởng của việc điều hòa, từ đó giảm khả năng xảy ra tình trạng khái quát hoá kém.
- Có xu hướng tạo ra biểu đồ trọng số mô hình có các đặc điểm sau:
- phân phối chuẩn
- trọng số trung bình là 0.
Tỷ lệ điều hòa thấp:
- Giảm ảnh hưởng của việc điều hòa, do đó làm tăng khả năng xảy ra tình trạng khái quát hoá kém.
- Có xu hướng tạo ra biểu đồ tần suất của trọng số mô hình với phân phối phẳng.
Ví dụ: biểu đồ tần suất của các trọng số mô hình cho hệ số điều hòa cao có thể trông như trong Hình 18.
Ngược lại, hệ số điều hòa thấp có xu hướng tạo ra biểu đồ phẳng hơn, như minh hoạ trong Hình 19.
Chọn hệ số điều hoà
Hệ số điều hòa lý tưởng tạo ra một mô hình tổng quát hoá tốt cho dữ liệu mới, chưa từng thấy trước đây. Rất tiếc, giá trị lý tưởng đó phụ thuộc vào dữ liệu, vì vậy, bạn phải điều chỉnh điều chỉnh.
Dừng sớm: một lựa chọn thay thế cho phương pháp điều chuẩn dựa trên độ phức tạp
Dừng sớm là một phương pháp điều hòa không liên quan đến việc tính toán độ phức tạp. Thay vào đó, việc dừng sớm chỉ đơn giản là kết thúc quá trình huấn luyện trước khi mô hình hội tụ hoàn toàn. Ví dụ: bạn kết thúc quá trình huấn luyện khi đường cong tổn thất cho tập xác nhận bắt đầu tăng (độ dốc trở nên dương).
Mặc dù việc dừng sớm thường làm tăng tổn thất khi huấn luyện, nhưng có thể làm giảm tổn thất khi kiểm thử.
Dừng sớm là một hình thức điều chỉnh nhanh chóng nhưng hiếm khi tối ưu. Mô hình thu được rất khó có thể tốt bằng một mô hình được huấn luyện kỹ lưỡng với hệ số điều hòa lý tưởng.
Tìm điểm cân bằng giữa tốc độ học tập và hệ số điều hòa
Tốc độ học và hệ số điều hòa có xu hướng di chuyển trọng số theo hướng ngược nhau. Tốc độ học cao thường kéo trọng số ra khỏi số 0; hệ số điều hòa cao sẽ đẩy trọng số về phía số 0.
Nếu hệ số điều hòa cao so với tốc độ học, thì các trọng số yếu có xu hướng tạo ra một mô hình đưa ra dự đoán kém. Ngược lại, nếu tốc độ học cao so với tốc độ điều chuẩn, thì các trọng số mạnh có xu hướng tạo ra một mô hình khớp quá mức.
Mục tiêu của bạn là tìm ra điểm cân bằng giữa tốc độ học và hệ số điều hòa. Điều này có thể sẽ không dễ dàng. Điều tồi tệ nhất là một khi tìm được sự cân bằng khó nắm bắt đó, cuối cùng bạn có thể phải thay đổi tốc độ học. Và khi thay đổi tốc độ học, bạn sẽ phải tìm lại hệ số điều hòa lý tưởng.