Bài học này tập trung vào những câu hỏi mà bạn nên đặt ra về dữ liệu của mình
và mô hình trong hệ thống sản xuất.
Mỗi tính năng có hữu ích không?
Bạn nên liên tục theo dõi mô hình của mình để loại bỏ những tính năng đóng góp
rất ít hoặc không ảnh hưởng đến khả năng dự đoán của mô hình. Nếu dữ liệu đầu vào cho
đặc điểm đó thay đổi đột ngột thì hành vi của mô hình cũng có thể đột ngột
thay đổi theo cách không mong muốn.
Ngoài ra, hãy cân nhắc câu hỏi liên quan sau đây:
- Tính hữu ích của tính năng này có đáp ứng được chi phí bỏ ra không?
Việc thêm nhiều tính năng vào mô hình luôn là điều hấp dẫn. Ví dụ:
giả sử bạn tìm thấy một đối tượng mới có phép thêm vào để dự đoán cho mô hình của bạn
tốt hơn một chút. Dự đoán tốt hơn một chút chắc chắn có vẻ tốt hơn
gợi ý kém hơn một chút; Tuy nhiên, tính năng bổ sung này
sẽ bổ sung
gánh nặng bảo trì.
Nguồn dữ liệu của bạn có đáng tin cậy không?
Một số câu hỏi cần đặt ra về độ tin cậy của dữ liệu đầu vào:
- Tín hiệu sẽ luôn có sẵn hay đến từ một
nguồn không đáng tin cậy? Ví dụ:
- Tín hiệu có đến từ máy chủ gặp sự cố khi quá tải không?
- Có phải tín hiệu đến từ con người đi nghỉ vào tháng 8 hằng năm không?
- Hệ thống tính toán dữ liệu đầu vào của mô hình có bao giờ thay đổi không? Nếu có:
- Tần suất?
- Làm cách nào để biết khi nào hệ thống đó thay đổi?
Hãy cân nhắc việc tạo bản sao dữ liệu của riêng bạn mà bạn nhận được từ
ngược dòng. Sau đó, chỉ chuyển sang phiên bản tiếp theo của phiên bản ngược dòng (upstream)
khi bạn chắc chắn rằng việc làm như vậy là an toàn.
Mô hình của bạn có nằm trong vòng hồi tiếp không?
Đôi khi, một mô hình có thể ảnh hưởng đến dữ liệu huấn luyện của chính mô hình đó. Ví dụ:
kết quả từ một số mô hình, lần lượt trở thành thông tin đầu vào (trực tiếp hoặc gián tiếp)
tính năng vào cùng một mô hình.
Đôi khi, một mô hình có thể ảnh hưởng đến một mô hình khác. Ví dụ: hãy cân nhắc 2
các mô hình dự đoán giá cổ phiếu:
- Mô hình A là mô hình dự đoán không hiệu quả.
- Mô hình B.
Vì Mô hình A là xe buggy, nên mẫu xe này quyết định nhầm mua cổ phiếu tại Cổ phiếu X.
Những giao dịch mua đó khiến giá của Cổ phiếu X tăng lên. Mô hình B sử dụng giá
của Cổ phiếu X làm tính năng đầu vào, vì vậy, Mô hình B có thể đưa ra kết quả là
kết luận về giá trị của Cổ phiếu X. Do đó, Mô hình B có thể
mua hoặc bán cổ phiếu của Cổ phiếu X dựa trên hành vi lỗi của Mô hình A.
Đổi lại, hành vi của Mô hình B có thể ảnh hưởng đến Mô hình A và gây ra
tulip mania hoặc trượt vào
Cổ phiếu của công ty X.
Bài tập: Kiểm tra kiến thức
Ba mô hình nào sau đây dễ bị nhiễm
vòng hồi tiếp?
Mô hình dự báo giao thông dự đoán tình trạng tắc nghẽn ở lối ra trên đường cao tốc
gần bãi biển, sử dụng quy mô đám đông bãi biển làm một trong những đặc điểm của nơi đây.
Một số người đi biển có khả năng sẽ căn cứ vào tình hình giao thông
dự báo. Nếu có đông người trên bãi biển và giao thông được dự báo là
lớn, nhiều người có thể thực hiện các phương án thay thế. Điều này có thể khiến bãi biển dần trở nên ảm đạm
giúp dự báo lưu lượng truy cập ít hơn, nhờ đó có thể
tăng số người tham dự và chu kỳ này lặp lại.
Mô hình đề xuất sách đề xuất tiểu thuyết mà người dùng có thể thích
dựa trên mức độ phổ biến (chẳng hạn như số lần những cuốn sách được
đã mua).
Sách đề xuất có khả năng thúc đẩy lượt mua hàng và những đề xuất này
doanh số bán hàng bổ sung sẽ được đưa trở lại vào mô hình dưới dạng dữ liệu đầu vào.
giúp tăng khả năng đề xuất chính những cuốn sách này trong
tương lai.
Một mô hình xếp hạng đại học trong đó xếp hạng các trường một phần theo
chọn lọc – tỷ lệ phần trăm học sinh đã đăng ký
được cho phép.
Thứ hạng của mô hình có thể thúc đẩy thêm sự quan tâm đến mô hình được xếp hạng cao nhất
trường học, làm tăng số lượng đơn đăng ký mà họ nhận được. Nếu các yêu cầu này
tiếp tục nhận số lượng học sinh không thay đổi, thì tính chọn lọc sẽ
tăng (tỷ lệ học viên được nhận sẽ giảm xuống). Chiến dịch này
sẽ thúc đẩy những trường học này thứ hạng cao hơn, từ đó tăng
mối quan tâm tiềm năng của học sinh, v.v.
Mô hình kết quả bầu cử giúp dự đoán người chiến thắng
thị trưởng bằng cách khảo sát 2% cử tri sau khi các cuộc thăm dò ý kiến kết thúc.
Nếu mô hình không công bố thông tin dự đoán cho đến sau khi cuộc thăm dò ý kiến kết thúc
đã đóng, dự đoán không thể ảnh hưởng đến cử tri
hành vi.
Mô hình giá trị nhà ở để dự đoán giá nhà, sử dụng
kích thước (diện tích tính bằng mét vuông), số phòng ngủ và vị trí địa lý
các tính năng.
Bạn không thể thay đổi nhanh vị trí của một ngôi nhà.
diện tích hoặc số phòng ngủ phù hợp với dự đoán giá,
khiến cho vòng hồi tiếp khó có thể xảy ra. Tuy nhiên, có khả năng
mối tương quan giữa kích thước và số phòng ngủ (nhà lớn hơn
có nhiều phòng hơn) có thể cần được tách riêng.
Mô hình thuộc tính khuôn mặt phát hiện xem một người có đang cười hay không
trong một bức ảnh thường được đào tạo về cơ sở dữ liệu ảnh trên kho ảnh
và được tự động cập nhật hằng tháng.
Không có vòng hồi tiếp ở đây, vì dự đoán mô hình không có
bất kỳ tác động nào đến cơ sở dữ liệu ảnh. Tuy nhiên, việc tạo phiên bản của dữ liệu đầu vào
đáng quan tâm ở đây là dữ liệu do các bản cập nhật hằng tháng này có thể
có ảnh hưởng không lường trước đến mô hình.