Điều chỉnh L2 là chỉ số chuẩn hoá phổ biến, sử dụng công thức sau:
Ví dụ: bảng sau đây trình bày số liệu tính L2 chuẩn hoá cho mô hình có 6 trọng số:
Giá trị | Giá trị bình phương | |
---|---|---|
w1 | 0,2 | 0,04 |
t2 | -0,5 | 0,25 |
t3 | 5 | 25,0 |
t4 | -1,2 | 1,44 |
t5 | 0,3 | 0,09 |
t6 | -0,1 | 0,01 |
26,83 = tổng |
Lưu ý rằng các trọng số gần bằng 0 không ảnh hưởng đến việc điều chỉnh L2 nhiều, nhưng trọng số lớn có thể có tác động rất lớn. Ví dụ: trong phép tính trước đó:
- Một trọng số (w3) đóng góp khoảng 93% độ phức tạp tổng thể.
- Năm trọng số còn lại chỉ đóng góp khoảng 7% độ phức tạp tổng thể.
Quy trình điều chỉnh L2 khuyến khích trọng số hướng về 0, nhưng không bao giờ đẩy trọng số luôn bằng 0.
Bài tập: Kiểm tra mức độ hiểu biết của bạn
Tỷ lệ chuẩn hoá (lambda)
Như đã nêu, quá trình huấn luyện cố gắng giảm thiểu một số yếu tố kết hợp giữa mất mát và phức tạp:
Nhà phát triển mô hình điều chỉnh tác động tổng thể của mức độ phức tạp đến việc huấn luyện mô hình bằng cách nhân giá trị của nó với một đại lượng vô hướng được gọi là tỷ lệ chuẩn hoá. Ký tự Hy Lạp lambda thường biểu tượng tốc độ chuẩn hoá.
Tức là nhà phát triển mô hình sẽ cố gắng làm những việc sau:
Tỷ lệ thường xuyên cao:
- Tăng cường sức ảnh hưởng của quá trình điều hợp hoá, từ đó giảm khả năng khái quát hoá kém.
- Có xu hướng tạo biểu đồ về trọng số mô hình có các đặc điểm sau
đặc điểm:
- phân phối chuẩn
- có trọng số trung bình là 0.
Tỷ lệ thường xuyên thấp:
- Giảm ảnh hưởng của quá trình điều chỉnh, do đó tăng cơ hội khái quát hoá kém.
- Có xu hướng tạo biểu đồ về trọng số mô hình với phân phối cố định.
Ví dụ: biểu đồ của trọng số mô hình có tỷ lệ điều chỉnh cao có thể được minh hoạ trong Hình 18.
Ngược lại, tỷ lệ điều chỉnh thấp có xu hướng tạo ra biểu đồ phẳng hơn, vì được minh hoạ trong Hình 19.
Chọn tốc độ điều chỉnh
Tỷ lệ điều chỉnh lý tưởng tạo ra một mô hình tổng quát hoá tốt dữ liệu mới, chưa từng xem trước đây. Thật không may, giá trị lý tưởng đó lại phụ thuộc vào dữ liệu, nên bạn phải thực hiện một số chỉnh.
Dừng sớm: một giải pháp thay thế cho quy trình điều chỉnh độ phức tạp
Dừng sớm là chính quy không liên quan đến việc tính toán độ phức tạp. Thay vào đó, việc dừng sớm chỉ đơn giản là kết thúc quá trình huấn luyện trước khi mô hình hội tụ đầy đủ. Ví dụ: bạn kết thúc bài tập khi đường cong tổn thất để tập hợp xác thực bắt đầu tăng (độ dốc trở thành số dương).
Mặc dù việc dừng sớm thường làm tăng thời gian tập luyện, nhưng nó có thể làm giảm thử nghiệm tổn thất.
Dừng sớm là một hình thức điều chỉnh nhanh chóng nhưng hiếm khi tối ưu. Mô hình thu được rất có thể sẽ không tốt như mô hình đã được huấn luyện hoàn toàn theo tỷ lệ điều chỉnh lý tưởng.
Tìm điểm cân bằng giữa tốc độ học tập và tốc độ đều đặn
Tốc độ học và tỷ lệ điều chỉnh có xu hướng kéo trọng số ngược lại đường đi. Tốc độ học cao thường kéo trọng số từ 0; tỷ lệ điều chỉnh cao sẽ kéo trọng số về 0.
Nếu tỷ lệ đều đặn cao tương ứng với tốc độ học, trọng số yếu có xu hướng tạo ra một mô hình đưa ra dự đoán kém. Ngược lại, nếu tốc độ học cao so với quy trình chuẩn hoá thì trọng số mạnh sẽ tạo ra mô hình quá mức.
Mục tiêu của bạn là tìm điểm cân bằng giữa tốc độ học và thường xuyên hơn. Việc này có thể là một thách thức. Tệ nhất là khi tìm được cân bằng khó nắm bắt đó, cuối cùng bạn có thể phải thay đổi tốc độ học. Khi thay đổi tốc độ học, bạn sẽ phải tìm ra phương án phù hợp nhất thường xuyên hơn.