Chuẩn hoá để trở nên đơn giản: Bài tập trong sân chơi (Overcrossing?)
Kết hợp?
Trước khi bạn xem video hoặc đọc tài liệu, vui lòng hoàn thành bài tập này để tìm hiểu việc sử dụng quá nhiều tính năng.
Nhiệm vụ 1: Chạy mô hình như nguyên trạng, với tất cả các tính năng đã cho trên nhiều sản phẩm. Có điều gì bất ngờ khi mô hình này phù hợp với dữ liệu không?
Vấn đề là gì?
Nhiệm vụ 2: Thử xoá nhiều tính năng trên nhiều sản phẩm để cải thiện hiệu suất (mặc dù chỉ một chút). Tại sao việc xoá các tính năng lại cải thiện hiệu suất?
(Câu trả lời xuất hiện ngay bên dưới bài tập.)
Nhấp vào biểu tượng dấu cộng cho câu trả lời cho Nhiệm vụ 1.
Điều đáng ngạc nhiên là ranh giới quyết định của mô hình này có vẻ kỳ dị. Cụ thể, có một vùng ở phía trên bên trái gợi ý về màu xanh dương, mặc dù dữ liệu không có sự hỗ trợ rõ ràng cho vùng đó.
Lưu ý độ dày tương đối của năm đường chạy từ ĐẦU đến OUTPUT.
Những đường này cho biết trọng số tương đối của 5 đặc điểm.
Các đường bắt nguồn từ X1 và X2 dày hơn nhiều so với các đường bắt nguồn từ các đối tượng giao nhau. Vì vậy, các tính năng giao thoa đang đóng góp ít hơn nhiều vào mô hình so với các tính năng thông thường (không kết hợp).
Nhấp vào biểu tượng dấu cộng cho câu trả lời cho Nhiệm vụ 2.
Việc xoá tất cả các điểm giao thoa tính năng sẽ giúp mô hình hợp lý hơn (không còn ranh giới cong cho thấy tình trạng trang bị quá mức) và hội tụ tổn thất do kiểm thử.
Sau 1.000 lần lặp, tỷ lệ mất kiểm thử sẽ thấp hơn một chút so với khi các tính năng giao nhau đang hoạt động (mặc dù kết quả của bạn có thể khác một chút, tuỳ thuộc vào tập dữ liệu).
Dữ liệu trong bài tập này về cơ bản là dữ liệu tuyến tính cộng với độ nhiễu.
Nếu sử dụng một mô hình quá phức tạp, chẳng hạn như mô hình có quá nhiều giao diện, chúng ta sẽ tạo cơ hội để mô hình đó phù hợp với nhiễu trong dữ liệu huấn luyện, thường là khiến mô hình hoạt động kém hiệu quả đối với dữ liệu kiểm thử.