Overfitting: Diễn giải đường cong tổn thất

Công nghệ học máy sẽ đơn giản hơn nhiều nếu tất cả đường cong mất trông giống như thế này vào lần đầu tiên bạn huấn luyện mô hình của mình:

Hình 20. Biểu đồ thể hiện đường cong tổn thất lý tưởng khi huấn luyện một
            mô hình học máy. Đường cong mức hao tổn thể hiện mức tổn thất trên trục y
            dựa trên số bước huấn luyện trên trục x. Số
            số bước tập luyện tăng lên, mức độ mất mát bắt đầu cao, sau đó giảm đi
            theo cấp số nhân, và cuối cùng sẽ nén lại để đạt mức tối thiểu
            tổn thất.
Hình 20. Đường cong tổn thất lý tưởng.

Thật không may, đường cong về tổn thất thường rất khó diễn giải. Sử dụng để giải các bài tập trên trang này.

Bài tập 1: Đường cong tổn thất dao động

Hình 21. Đường cong mức ngừng sử dụng (số lỗ trên trục y; số lần huấn luyện
            trên trục x) mà trong đó tổn thất sẽ không biến mất.
            Thay vào đó, sự mất mát dao động thất thường.
Hình 21. Đường cong tổn thất dao động.
Ba điều bạn có thể làm để thử cải thiện đường cong về khả năng ngừng sử dụng được minh hoạ trong Hình 21.
Kiểm tra dữ liệu của bạn dựa trên giản đồ dữ liệu để phát hiện các ví dụ không hợp lệ, và thì hãy xoá các ví dụ không hợp lệ khỏi tập huấn luyện.
Có, đây là một phương pháp hay cho tất cả mô hình.
Giảm tốc độ học.
Có, việc giảm tốc độ học thường là một ý hay khi gỡ lỗi vấn đề huấn luyện.
Giảm lượng tập huấn luyện xuống một số ít ví dụ đáng tin cậy.
Mặc dù kỹ thuật này nghe có vẻ nhân tạo, nhưng thực sự là một kỹ thuật hay ý tưởng. Giả sử mô hình hội tụ trên tập nhỏ ví dụ đáng tin cậy, sau đó bạn có thể dần dần thêm nhiều ví dụ hơn, có thể là tìm ra các ví dụ dẫn đến đường cong tổn thất dao động.
Tăng số lượng ví dụ trong tập huấn luyện.
Đây là một ý tưởng hấp dẫn nhưng rất khó có thể khắc phục được sự cố.
Tăng tốc độ học.
Nhìn chung, hãy tránh tăng tốc độ học khi đường cong học tập cho thấy một vấn đề.

Bài tập 2. Đường cong mất đi kèm bước nhảy vọt

Hình 22. Biểu đồ đường cong thể hiện tổn thất giảm dần đến
            một số bước huấn luyện nhất định, sau đó tăng đột ngột
            cùng với các bước đào tạo bổ sung.
Hình 22. Tỷ lệ thua lỗ tăng mạnh.
Hai câu lệnh nào sau đây có thể xác định được khả năng nguyên nhân gây ra tổn thất do nổ được minh hoạ trong Hình 22.
Dữ liệu đầu vào chứa một hoặc nhiều NaN – ví dụ: một giá trị gây ra bởi phép chia cho 0.
Trường hợp này thường xảy ra hơn dự kiến.
Dữ liệu đầu vào có chứa một loạt các điểm ngoại lai.
Đôi khi, do việc trộn các lô không đúng cách, một lô có thể chứa nhiều điểm ngoại lai.
Tốc độ học quá thấp.
Tốc độ học tập rất thấp có thể làm tăng thời gian đào tạo, nhưng không phải là nguyên nhân của đường cong tổn thất kỳ lạ.
Tốc độ điều chỉnh quá cao.
Đúng, mức điều chỉnh rất cao có thể ngăn mô hình converging; tuy nhiên, điều đó không gây ra đường cong tổn thất kỳ lạ được minh hoạ trong Hình 22.

Bài tập 3. Mất kiểm thử khác với số lần ngừng huấn luyện

Hình 23. Đường cong thời gian ngừng huấn luyện dường như hội tụ, nhưng
            tỷ lệ mất xác thực bắt đầu tăng sau một số lượng chương trình huấn luyện nhất định
            bước.
Hình 23. Tỷ lệ mất dữ liệu xác thực tăng mạnh.
Một câu nào sau đây xác định đúng nhất: lý do dẫn đến sự khác biệt này giữa đường cong tổn thất trong quá trình đào tạo và tập hợp thử nghiệm?
Mô hình này đang vượt quá tập huấn luyện.
Vâng, có lẽ là vậy. Giải pháp khả thi:
  • Làm cho mô hình đơn giản hơn, có thể bằng cách giảm số lượng nhiều tính năng.
  • Tăng tốc độ điều chỉnh.
  • Đảm bảo rằng tập huấn luyện và tập kiểm thử đều có ý nghĩa thống kê tương đương.
Tốc độ học quá cao.
Nếu tốc độ học tập quá cao, đường cong tổn thất cho tập huấn luyện có thể sẽ không hoạt động như trước.

Bài tập 4. Đường cong tổn thất bị mắc kẹt

Hình 24. Một đồ thị của đường cong về tổn thất thể hiện tổn thất bắt đầu đến
            hội tụ với quá trình huấn luyện, nhưng sau đó cho thấy các mẫu lặp lại
            trông giống như một con sóng hình chữ nhật.
Hình 24. Mất tín hiệu hỗn loạn sau một số bước nhất định.
Một câu nào sau đây có khả năng xuất hiện nhất lời giải thích cho đường cong tổn thất thất thường được thể hiện trong Hình 24?
Tập hợp huấn luyện chứa các chuỗi ví dụ lặp lại.
Đây là một khả năng. Đảm bảo rằng bạn đang xáo trộn các ví dụ đủ.
Tốc độ điều chỉnh quá cao.
Đây không phải là nguyên nhân.
Tập hợp huấn luyện chứa quá nhiều tính năng.
Đây không phải là nguyên nhân.