Overfitting: Diễn giải đường cong tổn thất

Việc học máy sẽ đơn giản hơn nhiều nếu tất cả đường cong tổn thất của bạn trông giống như sau trong lần đầu tiên bạn huấn luyện mô hình:

Hình 20. Biểu đồ cho thấy đường cong tổn thất lý tưởng khi huấn luyện mô hình học máy. Đường cong tổn thất biểu thị tổn thất trên trục y so với số bước huấn luyện trên trục x. Khi số lượng bước đào tạo tăng lên, tổn thất bắt đầu cao, sau đó giảm theo hàm mũ và cuối cùng sẽ trở nên phẳng để đạt được tổn thất tối thiểu.
Hình 20. Đường cong tổn hao lý tưởng.

Thật không may, các đường cong tổn thất thường khó diễn giải. Sử dụng trực giác của bạn về các đường cong tổn thất để giải các bài tập trên trang này.

Bài tập 1: Đường cong tổn hao dao động

Hình 21. Một đường cong tổn thất (tổn thất trên trục y; số bước đào tạo trên trục x) trong đó tổn thất không bị phẳng.
            Thay vào đó, tổn thất dao động không đều.
Hình 21. Đường cong tổn hao dao động.
Bạn có thể làm 3 việc gì để cố gắng cải thiện đường cong tổn hao trong Hình 21.
Kiểm tra dữ liệu của bạn theo giản đồ dữ liệu để phát hiện các ví dụ không phù hợp, sau đó xoá các ví dụ không phù hợp khỏi tập huấn luyện.
Có, đây là phương pháp hay cho tất cả các mô hình.
Giảm tốc độ học.
Có, bạn nên giảm tốc độ học khi gỡ lỗi vấn đề đào tạo.
Giảm bộ dữ liệu huấn luyện xuống một số ít ví dụ đáng tin cậy.
Mặc dù kỹ thuật này nghe có vẻ giả tạo, nhưng thực sự là một ý tưởng hay. Giả sử mô hình hội tụ trên một nhóm nhỏ các ví dụ đáng tin cậy, sau đó, bạn có thể dần dần thêm các ví dụ khác, có thể khám phá những ví dụ nào khiến đường cong tổn thất dao động.
Tăng số lượng ví dụ trong tập huấn luyện.
Đây là một ý tưởng hấp dẫn, nhưng rất khó có thể khắc phục được vấn đề.
Tăng tốc độ học.
Nhìn chung, hãy tránh tăng tốc độ học khi đường cong học của mô hình cho thấy có vấn đề.

Bài tập 2. Đường cong tổn thất có sự tăng đột biến

Hình 22. Biểu đồ đường cong tổn thất cho thấy tổn thất giảm xuống một số bước huấn luyện nhất định, sau đó tăng đột biến với các bước huấn luyện tiếp theo.
Hình 22. Mức hao tổn tăng mạnh.
Hai câu lệnh sau đây xác định lý do có thể dẫn đến tổn thất tăng vọt trong Hình 22.
Dữ liệu đầu vào chứa một hoặc nhiều NaN – ví dụ: một giá trị do phép chia cho 0 gây ra.
Điều này phổ biến hơn bạn nghĩ.
Dữ liệu đầu vào chứa một loạt các giá trị ngoại lai.
Đôi khi, do việc xáo trộn lô không đúng cách, một lô có thể chứa nhiều giá trị ngoại lai.
Tốc độ học quá thấp.
Tốc độ học rất thấp có thể làm tăng thời gian huấn luyện, nhưng đó không phải là nguyên nhân gây ra đường cong tổn thất lạ.
Tỷ lệ chuẩn hoá quá cao.
Đúng là việc chuẩn hoá rất cao có thể ngăn mô hình hội tụ; tuy nhiên, điều này sẽ không gây ra đường cong tổn thất lạ như trong Hình 22.

Bài tập 3. Mất mát kiểm thử khác với mất mát huấn luyện

Hình 23. Đường cong tổn thất huấn luyện có vẻ như hội tụ, nhưng tổn thất xác thực bắt đầu tăng sau một số bước huấn luyện nhất định.
Hình 23. Mức tăng mạnh về tỷ lệ mất dữ liệu xác thực.
Câu nào sau đây xác định đúng nhất lý do dẫn đến sự khác biệt này giữa các đường cong tổn thất của tập huấn luyện và tập kiểm thử?
Mô hình đang điều chỉnh quá mức tập dữ liệu huấn luyện.
Có thể là vậy. Các giải pháp có thể áp dụng:
  • Làm cho mô hình đơn giản hơn, có thể bằng cách giảm số lượng tính năng.
  • Tăng hệ số điều hoà.
  • Đảm bảo rằng tập huấn luyện và tập kiểm thử tương đương về mặt thống kê.
Tốc độ học quá cao.
Nếu tốc độ học quá cao, thì đường cong tổn thất cho tập huấn luyện có thể sẽ không hoạt động như vậy.

Bài tập 4. Đường cong tổn thất bị kẹt

Hình 24. Biểu đồ của một đường cong tổn thất cho thấy tổn thất bắt đầu hội tụ với quá trình huấn luyện, nhưng sau đó hiển thị các mẫu lặp lại trông giống như một sóng hình chữ nhật.
Hình 24. Mất trật tự sau một số bước nhất định.
Câu nào sau đây có khả năng giải thích nhất cho đường cong tổn hao thất thường trong Hình 24?
Tập dữ liệu huấn luyện chứa các chuỗi lặp lại của các ví dụ.
Đây là một khả năng. Đảm bảo rằng bạn đã xáo trộn các ví dụ một cách đầy đủ.
Tỷ lệ chuẩn hoá quá cao.
Đây có thể không phải là nguyên nhân.
Tập dữ liệu huấn luyện chứa quá nhiều đặc điểm.
Đây có thể không phải là nguyên nhân.