Quá tải nghĩa là tạo một mô hình khớp với (ghi nhớ) tập huấn luyện để gần như chắc chắn mô hình này sẽ không đưa ra được dự đoán chính xác về dữ liệu mới. Mô hình quá tải cũng tương tự như một phát minh hoạt động hiệu quả trong phòng thí nghiệm nhưng là vô giá trị trong thế giới thực.
Trong Hình 11, hãy tưởng tượng rằng mỗi hình dạng hình học đại diện cho vị trí của một cái cây trong một khu rừng hình vuông. Những hình thoi màu xanh dương đánh dấu vị trí của cây xanh tốt, trong khi các vòng tròn màu cam đánh dấu vị trí của cây bị bệnh.
Dùng tinh thần vẽ bất kỳ hình dạng nào – đường thẳng, đường cong, hình bầu dục...bất kỳ thứ gì – để tách riêng phần cây khoẻ mạnh từ cây bị bệnh. Sau đó, mở rộng dòng tiếp theo để tìm hiểu một cách phân tách khả thi.
Các hình dạng phức tạp như trong Hình 12 đã phân loại thành công tất cả trừ hai phần tử cây cối. Nếu chúng ta hình dung về các hình dạng như một mô hình, thì đây là mô hình.
Mà có khó lắm không nhỉ? Một mô hình thực sự xuất sắc sẽ phân loại thành công các ví dụ mới. Hình 13 cho thấy điều gì sẽ xảy ra khi cùng một mô hình đó đưa ra các dự đoán về ví dụ từ tập kiểm thử:
Vì vậy, mô hình phức tạp như trong Hình 12 đã làm rất tốt trên tập huấn luyện nhưng lại khá tệ trong bài kiểm thử. Đây là trường hợp cổ điển của một mô hình thêm tối đa dữ liệu vào tập dữ liệu huấn luyện.
Điều chỉnh kích cỡ khuôn hình, giúp việc mặc quá mức và thiếu sự ôm sát
Mô hình phải đưa ra dự đoán chính xác về dữ liệu mới. Tức là bạn đang muốn tạo ra một mô hình "phù hợp" dữ liệu mới.
Như bạn đã thấy, mô hình overfit đưa ra những dự đoán cực kỳ chính xác về quá trình huấn luyện đặt ra nhưng dự đoán kém về dữ liệu mới. Một người mẫu quần áo thậm chí không đưa ra dự đoán chính xác về dữ liệu huấn luyện. Nếu người mẫu mặc quần áo là giống như một sản phẩm hoạt động tốt trong phòng thí nghiệm nhưng lại kém hiệu quả trong thế giới thực, thì người mẫu quần áo giống như một sản phẩm thậm chí không thành công về phòng thí nghiệm.
Tổng quát là trái ngược với khái niệm khái quát hoá quá mức. Tức là một mô hình tổng quát hoá tốt tạo nên các dự đoán về dữ liệu mới. Mục tiêu của bạn là tạo ra một mô hình tổng quát hoá dữ liệu mới.
Phát hiện tình trạng quá cân
Những đường cong sau đây giúp bạn phát hiện tình trạng quá cân:
- đường cong tổn thất
- đường cong tổng quát
Đường cong tổn thất biểu thị mức tổn thất của một mô hình dựa trên số lần lặp lại huấn luyện. Đồ thị hiển thị hai hoặc nhiều đường cong tổn thất được gọi là tổng quát hoá đường cong. Nội dung sau đây đường cong tổng quát hoá biểu thị hai đường cong tổn thất:
Lưu ý rằng hai đường cong tổn thất hoạt động tương tự nhau lúc đầu rồi phân kỳ. Tức là, sau một số lần lặp lại nhất định, tổn thất giảm hoặc giữ ổn định (hội tụ) cho tập huấn luyện, nhưng tăng cho tập hợp xác thực. Điều này gợi ý đến việc sử dụng quá mức.
Ngược lại, đường cong tổng quát của một mô hình phù hợp cho thấy hai đường cong mức hao tổn có hình dạng tương tự.
Nguyên nhân gây ra tình trạng quá tải là gì?
Nói chung, tình trạng áp dụng quá mức là do một hoặc cả hai nguyên nhân sau đây vấn đề:
- Tập hợp huấn luyện không thể hiện đầy đủ dữ liệu thực tế (hoặc tập xác thực hoặc tập hợp kiểm thử).
- Mô hình quá phức tạp.
Điều kiện khái quát hoá
Một mô hình sẽ huấn luyện trên một tập huấn luyện, nhưng kiểm thử thực tế về giá trị của một mô hình là cách nó cũng đưa ra dự đoán về các ví dụ mới, đặc biệt là về dữ liệu thực tế. Trong khi phát triển một mô hình, tập hợp kiểm thử của bạn đóng vai trò như một proxy cho dữ liệu thực tế. Việc huấn luyện một mô hình tổng quát hoá ngụ ý tốt các điều kiện sau đây của tập dữ liệu:
- Ví dụ: được phân phối một cách độc lập và giống hệt nhau, Đây là một cách nói vui nhộn, các ví dụ không thể ảnh hưởng lẫn nhau.
- Tập dữ liệu là cố định, nghĩa là không thay đổi đáng kể theo thời gian.
- Các phân vùng tập dữ liệu có cùng mức phân bổ. Tức là, các ví dụ trong tập huấn luyện có ý nghĩa thống kê tương tự với các ví dụ trong tập xác thực, tập kiểm thử và dữ liệu thực tế.
Khám phá các điều kiện trước đó thông qua các bài tập sau.
Bài tập: Kiểm tra mức độ hiểu biết của bạn
Bài tập thử thách
Bạn đang tạo một mô hình dự đoán ngày lý tưởng để người lái xe mua cho một tuyến đường cụ thể. Ví dụ: mô hình có thể đề xuất rằng người dùng mua vé vào ngày 8 tháng 7 cho một chuyến tàu khởi hành ngày 23 tháng 7. Công ty tàu cập nhật giá hằng giờ dựa trên nhiều loại giá cập nhật nhưng chủ yếu là vào số lượng ghế trống hiện tại. Đó là:
- Nếu có nhiều chỗ ngồi thì giá vé thường sẽ thấp.
- Nếu có rất ít chỗ ngồi thì giá vé thường sẽ cao.
Đáp án: Mô hình trong thế giới thực đang gặp khó khăn với một vòng hồi tiếp.
Ví dụ: giả sử mô hình này đề xuất người dùng mua vé vào ngày 8 tháng 7. Một số tay đua sử dụng đề xuất của mẫu xe để mua vé lúc 8:30 vào sáng ngày 8 tháng 7. Lúc 9 giờ, công ty tàu tăng giá vì hiện còn ít ghế hơn. Những người lái xe sử dụng đề xuất của mô hình giá đã thay đổi. Vào buổi tối, giá vé có thể cao hơn nhiều so với ở buổi sáng.