Mô-đun trước đã giới thiệu việc phân vùng một tập dữ liệu thành một tập dữ liệu huấn luyện và một tập kiểm thử. Việc phân chia này cho phép bạn huấn luyện trên một tập hợp các ví dụ, sau đó kiểm thử mô hình đó với một tập hợp các ví dụ khác. Với hai phân vùng, quy trình làm việc có thể như sau:
Hình 1. Có thể có một quy trình công việc nào đó?
Trong hình này, "Tweak mô hình" có nghĩa là điều chỉnh mọi thứ về mô hình mà bạn mong muốn – từ thay đổi tốc độ học, thêm hoặc xoá các tính năng cho đến thiết kế một mô hình hoàn toàn mới từ đầu. Khi kết thúc quy trình công việc này, bạn sẽ chọn mô hình hoạt động tốt nhất trên nhóm kiểm thử.
Bạn nên chia tập dữ liệu thành hai tập dữ liệu, nhưng sẽ không hiệu quả. Bạn có thể giảm đáng kể khả năng tình trạng thừa mức bằng cách phân vùng tập dữ liệu thành ba tập hợp con như trong hình sau:
Hình 2. Phân tách một tập dữ liệu thành ba tập hợp con.
Sử dụng tập hợp xác thực để đánh giá kết quả từ tập hợp huấn luyện. Sau đó, sử dụng bộ kiểm thử để kiểm tra kỹ phần đánh giá của bạn sau khi mô hình đã "vượt qua" bộ xác thực. Hình sau đây cho thấy quy trình làm việc mới này:
Hình 3. Quy trình làm việc hiệu quả hơn.
Trong quy trình làm việc cải tiến này:
- Hãy chọn mô hình hoạt động hiệu quả nhất trong tập hợp xác thực.
- Kiểm tra kỹ mô hình đó với tập hợp kiểm thử.
Đây là quy trình công việc tốt hơn vì nó tạo ra ít lần hiển thị quảng cáo hơn cho nhóm kiểm thử.