Thừa khớp có nghĩa là tạo một mô hình khớp (ghi nhớ) tập huấn luyện một cách quá sát đến mức mô hình không thể đưa ra dự đoán chính xác về dữ liệu mới. Mô hình phù hợp quá mức tương tự như một phát minh hoạt động tốt trong phòng thí nghiệm nhưng vô giá trị trong thế giới thực.
Trong Hình 11, hãy tưởng tượng rằng mỗi hình dạng hình học đại diện cho vị trí của một cây trong một khu rừng hình vuông. Kim cương màu xanh dương đánh dấu vị trí của cây khỏe mạnh, còn vòng tròn màu cam đánh dấu vị trí của cây bị bệnh.
Hãy vẽ trong trí tưởng tượng bất kỳ hình dạng nào – đường thẳng, đường cong, hình bầu dục… bất kỳ hình dạng nào – để phân tách các cây khoẻ mạnh với cây bị bệnh. Sau đó, hãy mở rộng dòng tiếp theo để kiểm tra một cách phân tách có thể xảy ra.
Mở rộng để xem một giải pháp khả thi (Hình 12).
Các hình dạng phức tạp trong Hình 12 đã phân loại thành công tất cả các cây ngoại trừ hai cây. Nếu chúng ta coi các hình dạng là một mô hình, thì đây là một mô hình tuyệt vời.
Mà có khó lắm không nhỉ? Một mô hình thực sự xuất sắc sẽ phân loại thành công các ví dụ mới. Hình 13 cho thấy điều gì sẽ xảy ra khi cùng một mô hình đó đưa ra dự đoán về các ví dụ mới trong tập kiểm thử:
Vì vậy, mô hình phức tạp trong Hình 12 đã hoạt động rất tốt trên tập huấn luyện nhưng lại hoạt động khá kém trên tập kiểm thử. Đây là một trường hợp điển hình về việc mô hình phù hợp quá mức với dữ liệu tập huấn.
Phù hợp, quá phù hợp và không phù hợp
Mô hình phải đưa ra dự đoán chính xác về dữ liệu mới. Tức là bạn đang hướng đến việc tạo một mô hình "phù hợp" với dữ liệu mới.
Như bạn đã thấy, mô hình quá phù hợp đưa ra dự đoán chính xác về tập dữ liệu huấn luyện nhưng dự đoán kém về dữ liệu mới. Mô hình không phù hợp thậm chí không đưa ra dự đoán chính xác về dữ liệu huấn luyện. Nếu mô hình phù hợp quá mức giống như một sản phẩm hoạt động tốt trong phòng thí nghiệm nhưng hoạt động kém trong thế giới thực, thì mô hình không phù hợp giống như một sản phẩm thậm chí không hoạt động tốt trong phòng thí nghiệm.
Tổng quát hoá là khái niệm đối lập với việc điều chỉnh quá mức. Tức là một mô hình tổng quát hoá tốt sẽ đưa ra dự đoán chính xác về dữ liệu mới. Mục tiêu của bạn là tạo một mô hình khái quát hoá tốt cho dữ liệu mới.
Phát hiện tình trạng thích ứng quá mức
Các đường cong sau đây giúp bạn phát hiện tình trạng phù hợp quá mức:
- đường cong tổn thất
- đường cong tổng quát hoá
Đường cong tổn thất biểu thị tổn thất của mô hình so với số lần lặp lại quá trình huấn luyện. Biểu đồ cho thấy hai hoặc nhiều đường cong tổn thất được gọi là đường cong tổng quát hoá. Đường cong tổng quát sau đây cho thấy hai đường cong tổn hao:
Lưu ý rằng hai đường cong tổn thất hoạt động tương tự nhau lúc đầu rồi sau đó phân kỳ. Tức là sau một số lần lặp nhất định, tổn thất sẽ giảm hoặc giữ nguyên (hội tụ) đối với tập huấn luyện, nhưng sẽ tăng đối với tập xác thực. Điều này cho thấy tình trạng phù hợp quá mức.
Ngược lại, một đường cong tổng quát cho mô hình phù hợp sẽ cho thấy hai đường cong tổn thất có hình dạng tương tự nhau.
Nguyên nhân gây ra hiện tượng thích ứng quá mức là gì?
Nói một cách khái quát, việc phù hợp quá mức là do một hoặc cả hai vấn đề sau đây gây ra:
- Tập dữ liệu huấn luyện không thể hiện đầy đủ dữ liệu thực tế (hoặc tập dữ liệu xác thực hoặc tập dữ liệu kiểm thử).
- Mô hình quá phức tạp.
Điều kiện tổng quát hoá
Mô hình được huấn luyện trên một tập huấn luyện, nhưng thử nghiệm thực sự về giá trị của mô hình là khả năng dự đoán của mô hình đối với các ví dụ mới, đặc biệt là đối với dữ liệu thực tế. Trong khi phát triển mô hình, tập dữ liệu kiểm thử đóng vai trò là proxy cho dữ liệu thực tế. Việc huấn luyện một mô hình có khả năng khái quát tốt đòi hỏi các điều kiện sau đây đối với tập dữ liệu:
- Ví dụ phải được phân phối độc lập và giống hệt nhau. Đây là cách nói hoa mỹ để nói rằng các ví dụ của bạn không thể ảnh hưởng lẫn nhau.
- Tập dữ liệu là không đổi, nghĩa là tập dữ liệu không thay đổi đáng kể theo thời gian.
- Các phân vùng tập dữ liệu có cùng mức phân phối. Tức là các ví dụ trong tập huấn luyện có tính chất thống kê tương tự như các ví dụ trong tập xác thực, tập kiểm thử và dữ liệu thực tế.
Khám phá các điều kiện trước đó thông qua các bài tập sau.
Bài tập: Kiểm tra mức độ hiểu biết
Bài tập thử thách
Bạn đang tạo một mô hình dự đoán ngày lý tưởng để hành khách mua vé tàu cho một tuyến đường cụ thể. Ví dụ: mô hình có thể đề xuất người dùng mua vé vào ngày 8 tháng 7 cho chuyến tàu khởi hành vào ngày 23 tháng 7. Công ty tàu cập nhật giá hằng giờ, dựa trên nhiều yếu tố nhưng chủ yếu là số lượng chỗ ngồi hiện có. Đó là:
- Nếu có nhiều chỗ trống, giá vé thường thấp.
- Nếu số lượng ghế còn rất ít, giá vé thường cao.
Đáp án: Mô hình thực tế đang gặp khó khăn với một vòng lặp phản hồi.
Ví dụ: giả sử mô hình đề xuất người dùng mua vé vào ngày 8 tháng 7. Một số người đi xe sử dụng đề xuất của mô hình này đã mua vé vào lúc 8:30 sáng ngày 8 tháng 7. Vào lúc 9:00, công ty tàu tăng giá vì số lượng ghế còn lại ít hơn. Những người đi xe sử dụng đề xuất của mô hình đã thay đổi giá. Vào buổi tối, giá vé có thể cao hơn nhiều so với buổi sáng.