Overfitting: điều chỉnh L2

Điều chỉnh L2 là chỉ số chuẩn hoá phổ biến, sử dụng công thức sau:

$$L_2\text{ regularization } = {w_1^2 + w_2^2 + ... + w_n^2}$$

Ví dụ: bảng sau đây trình bày số liệu tính L2 chuẩn hoá cho mô hình có 6 trọng số:

Giá trị Giá trị bình phương
w1 0,2 0,04
t2 -0,5 0,25
t3 5 25,0
t4 -1,2 1,44
t5 0,3 0,09
t6 -0,1 0,01
    26,83 = tổng

Lưu ý rằng các trọng số gần bằng 0 không ảnh hưởng đến việc điều chỉnh L2 nhiều, nhưng trọng số lớn có thể có tác động rất lớn. Ví dụ: trong phép tính trước đó:

  • Một trọng số (w3) đóng góp khoảng 93% độ phức tạp tổng thể.
  • Năm trọng số còn lại chỉ đóng góp khoảng 7% độ phức tạp tổng thể.

Quy trình điều chỉnh L2 khuyến khích trọng số hướng về 0, nhưng không bao giờ đẩy trọng số luôn bằng 0.

Bài tập: Kiểm tra mức độ hiểu biết của bạn

Nếu bạn sử dụng quy trình điều chỉnh L2 trong khi huấn luyện một mô hình, thì thường sẽ xảy ra đối với độ phức tạp tổng thể của mô hình?
Độ phức tạp tổng thể của hệ thống có thể sẽ giảm.
Vì việc điều chỉnh L2 khuyến khích trọng số về 0, thì độ phức tạp tổng thể có thể sẽ giảm xuống.
Mức độ phức tạp tổng thể của mô hình này có thể sẽ vẫn là hằng số.
Điều này gần như không bao giờ xảy ra.
Độ phức tạp tổng thể của mô hình này có thể sẽ tăng lên.
Trường hợp này khó xảy ra. Hãy nhớ rằng quy tắc điều chỉnh L2 khuyến khích trọng số về 0.
Nếu sử dụng quy trình điều chỉnh L2 trong khi huấn luyện một mô hình, một số tính năng sẽ bị xoá khỏi mô hình.
Đúng
Mặc dù việc điều chỉnh L2 có thể làm cho một số trọng số nhỏ, nó sẽ không bao giờ đẩy bất kỳ trọng số nào về 0. Do đó, tất cả các tính năng sẽ vẫn đóng góp một số điểm nào đó cho mô hình.
Sai
Quy trình điều chỉnh L2 không bao giờ đẩy trọng số bằng mọi cách 0.

Tỷ lệ chuẩn hoá (lambda)

Như đã nêu, quá trình huấn luyện cố gắng giảm thiểu một số yếu tố kết hợp giữa mất mát và phức tạp:

$$\text{minimize(loss} + \text{ complexity)}$$

Nhà phát triển mô hình điều chỉnh tác động tổng thể của mức độ phức tạp đến việc huấn luyện mô hình bằng cách nhân giá trị của nó với một đại lượng vô hướng được gọi là tỷ lệ chuẩn hoá. Ký tự Hy Lạp lambda thường biểu tượng tốc độ chuẩn hoá.

Tức là nhà phát triển mô hình sẽ cố gắng làm những việc sau:

$$\text{minimize(loss} + \lambda \text{ complexity)}$$

Tỷ lệ thường xuyên cao:

  • Tăng cường sức ảnh hưởng của quá trình điều hợp hoá, từ đó giảm khả năng khái quát hoá kém.
  • Có xu hướng tạo biểu đồ về trọng số mô hình có các đặc điểm sau đặc điểm:
    • phân phối chuẩn
    • có trọng số trung bình là 0.

Tỷ lệ thường xuyên thấp:

  • Giảm ảnh hưởng của quá trình điều chỉnh, do đó tăng cơ hội khái quát hoá kém.
  • Có xu hướng tạo biểu đồ về trọng số mô hình với phân phối cố định.

Ví dụ: biểu đồ của trọng số mô hình có tỷ lệ điều chỉnh cao có thể được minh hoạ trong Hình 18.

Hình 18. Biểu đồ trọng số của mô hình với giá trị trung bình bằng 0 và
            phân phối chuẩn.
Hình 18. Biểu đồ trọng số để có tốc độ chuẩn hoá cao. Giá trị trung bình là 0. Phân phối chuẩn.

 

Ngược lại, tỷ lệ điều chỉnh thấp có xu hướng tạo ra biểu đồ phẳng hơn, vì được minh hoạ trong Hình 19.

Hình 19. Biểu đồ trọng số của mô hình với giá trị trung bình bằng 0
            nằm ở đâu đó giữa phân phối cố định và giá trị bình thường
            phạm vi phân phối.
Hình 19. Biểu đồ trọng số cho tốc độ điều chỉnh thấp. Giá trị trung bình có thể bằng hoặc không.

 

Chọn tốc độ điều chỉnh

Tỷ lệ điều chỉnh lý tưởng tạo ra một mô hình tổng quát hoá tốt dữ liệu mới, chưa từng xem trước đây. Thật không may, giá trị lý tưởng đó lại phụ thuộc vào dữ liệu, nên bạn phải thực hiện một số chỉnh.

Dừng sớm: một giải pháp thay thế cho quy trình điều chỉnh độ phức tạp

Dừng sớm là chính quy không liên quan đến việc tính toán độ phức tạp. Thay vào đó, việc dừng sớm chỉ đơn giản là kết thúc quá trình huấn luyện trước khi mô hình hội tụ đầy đủ. Ví dụ: bạn kết thúc bài tập khi đường cong tổn thất để tập hợp xác thực bắt đầu tăng (độ dốc trở thành số dương).

Mặc dù việc dừng sớm thường làm tăng thời gian tập luyện, nhưng nó có thể làm giảm thử nghiệm tổn thất.

Dừng sớm là một hình thức điều chỉnh nhanh chóng nhưng hiếm khi tối ưu. Mô hình thu được rất có thể sẽ không tốt như mô hình đã được huấn luyện hoàn toàn theo tỷ lệ điều chỉnh lý tưởng.

Tìm điểm cân bằng giữa tốc độ học tập và tốc độ đều đặn

Tốc độ học và tỷ lệ điều chỉnh có xu hướng kéo trọng số ngược lại đường đi. Tốc độ học cao thường kéo trọng số từ 0; tỷ lệ điều chỉnh cao sẽ kéo trọng số về 0.

Nếu tỷ lệ đều đặn cao tương ứng với tốc độ học, trọng số yếu có xu hướng tạo ra một mô hình đưa ra dự đoán kém. Ngược lại, nếu tốc độ học cao so với quy trình chuẩn hoá thì trọng số mạnh sẽ tạo ra mô hình quá mức.

Mục tiêu của bạn là tìm điểm cân bằng giữa tốc độ học và thường xuyên hơn. Việc này có thể là một thách thức. Tệ nhất là khi tìm được cân bằng khó nắm bắt đó, cuối cùng bạn có thể phải thay đổi tốc độ học. Khi thay đổi tốc độ học, bạn sẽ phải tìm ra phương án phù hợp nhất thường xuyên hơn.