Bài học này tập trung vào những câu hỏi bạn nên đặt về dữ liệu và mô hình trong các hệ thống sản xuất.
Mỗi tính năng có hữu ích không?
Bạn nên liên tục theo dõi mô hình để xoá những tính năng đóng góp ít hoặc không đóng góp gì vào khả năng dự đoán của mô hình. Nếu dữ liệu đầu vào cho tính năng đó thay đổi đột ngột, thì hành vi của mô hình cũng có thể thay đổi đột ngột theo những cách không mong muốn.
Ngoài ra, hãy cân nhắc câu hỏi liên quan sau:
- Tính hữu ích của tính năng này có xứng đáng với chi phí để đưa vào không?
Bạn luôn muốn thêm nhiều tính năng vào mô hình. Ví dụ: giả sử bạn tìm thấy một tính năng mới, việc thêm tính năng này vào sẽ giúp dự đoán của mô hình tốt hơn một chút. Dữ liệu dự đoán chính xác hơn một chút chắc chắn sẽ tốt hơn dữ liệu dự đoán kém chính xác hơn một chút; tuy nhiên, tính năng bổ sung này sẽ làm tăng gánh nặng bảo trì.
Nguồn dữ liệu của bạn có đáng tin cậy không?
Một số câu hỏi cần đặt ra về độ tin cậy của dữ liệu đầu vào:
- Tín hiệu có luôn có sẵn hay không, hay tín hiệu đó đến từ một nguồn không đáng tin cậy? Ví dụ:
- Tín hiệu có đến từ một máy chủ gặp sự cố khi có tải nặng không?
- Tín hiệu này có phải là do những người đi nghỉ vào tháng 8 không?
- Hệ thống tính toán dữ liệu đầu vào của mô hình có thay đổi không? Nếu có:
- Tần suất là bao nhiêu?
- Làm cách nào để bạn biết khi hệ thống đó thay đổi?
Hãy cân nhắc việc tạo bản sao của dữ liệu mà bạn nhận được từ quy trình thượng nguồn. Sau đó, chỉ chuyển sang phiên bản tiếp theo của dữ liệu thượng nguồn khi bạn chắc chắn rằng việc này là an toàn.
Mô hình của bạn có phải là một phần của vòng phản hồi không?
Đôi khi, một mô hình có thể ảnh hưởng đến dữ liệu huấn luyện của chính mô hình đó. Ví dụ: kết quả từ một số mô hình sẽ trở thành (trực tiếp hoặc gián tiếp) các tính năng đầu vào cho chính mô hình đó.
Đôi khi, một mô hình có thể ảnh hưởng đến mô hình khác. Ví dụ: hãy xem xét hai mô hình dự đoán giá cổ phiếu:
- Mô hình A là một mô hình dự đoán không tốt.
- Mô hình B.
Vì Model A bị lỗi nên quyết định mua cổ phiếu trong Stock X một cách nhầm lẫn.
Những giao dịch mua đó làm tăng giá của Cổ phiếu X. Mô hình B sử dụng giá của Cổ phiếu X làm một đặc điểm đầu vào, vì vậy, Mô hình B có thể đưa ra một số kết luận sai về giá trị của Cổ phiếu X. Do đó, Mô hình B có thể mua hoặc bán cổ phiếu của Cổ phiếu X dựa trên hành vi lỗi của Mô hình A.
Đổi lại, hành vi của Mô hình B có thể ảnh hưởng đến Mô hình A, có thể kích hoạt một cơn sốt hoa tulip hoặc sự sụt giảm trong cổ phiếu của Công ty X.
Bài tập: Kiểm tra mức độ hiểu bài
Ba mô hình nào sau đây dễ bị vòng phản hồi?
Mô hình dự báo lưu lượng truy cập dự đoán tình trạng tắc nghẽn tại các lối ra xa lộ gần bãi biển, sử dụng số lượng người trên bãi biển làm một trong các đặc điểm của mô hình.
Một số người đi biển có thể dựa vào thông tin dự báo về lưu lượng truy cập để lên kế hoạch. Nếu có một đám đông lớn trên bãi biển và lưu lượng truy cập được dự đoán là sẽ rất lớn, nhiều người có thể lên kế hoạch thay thế. Điều này có thể làm giảm số người đến bãi biển, dẫn đến lưu lượng truy cập được dự đoán sẽ giảm, sau đó có thể làm tăng số người đến và chu kỳ này lặp lại.
Mô hình đề xuất sách gợi ý những cuốn tiểu thuyết mà người dùng có thể thích dựa trên mức độ phổ biến của chúng (tức là số lần mua sách).
Đề xuất sách có thể thúc đẩy lượt mua hàng và các lượt bán hàng bổ sung này sẽ được đưa trở lại mô hình dưới dạng dữ liệu đầu vào, giúp tăng khả năng đề xuất những cuốn sách này trong tương lai.
Mô hình xếp hạng đại học đánh giá các trường một phần theo tính chọn lọc – tỷ lệ phần trăm số sinh viên đã đăng ký được nhận vào trường.
Thứ hạng của mô hình này có thể thúc đẩy thêm sự quan tâm đến các trường có điểm xếp hạng cao nhất, từ đó tăng số lượng đơn đăng ký mà các trường này nhận được. Nếu các trường này tiếp tục nhận cùng một số lượng học sinh, thì tính chọn lọc sẽ tăng lên (tỷ lệ phần trăm học sinh được nhận sẽ giảm). Điều này sẽ giúp nâng cao thứ hạng của các trường này, từ đó làm tăng thêm sự quan tâm của học viên tiềm năng, v.v.
Mô hình kết quả bầu cử dự đoán người chiến thắng trong cuộc bầu cử thị trưởng bằng cách khảo sát 2% số cử tri sau khi cuộc thăm dò ý kiến kết thúc.
Nếu mô hình không xuất bản thông tin dự đoán cho đến khi cuộc thăm dò ý kiến kết thúc, thì thông tin dự đoán của mô hình không thể ảnh hưởng đến hành vi của cử tri.
Mô hình giá trị nhà ở dự đoán giá nhà, sử dụng kích thước (diện tích tính bằng mét vuông), số lượng phòng ngủ và vị trí địa lý làm các đặc điểm.
Không thể nhanh chóng thay đổi vị trí, kích thước hoặc số lượng phòng ngủ của một ngôi nhà để phản hồi thông tin dự báo về giá, khiến vòng phản hồi khó có thể xảy ra. Tuy nhiên, có thể có mối tương quan giữa kích thước và số lượng phòng ngủ (nhà lớn hơn có thể có nhiều phòng hơn) mà bạn cần phân tách.
Mô hình thuộc tính khuôn mặt phát hiện xem một người có đang mỉm cười trong ảnh hay không. Mô hình này thường xuyên được huấn luyện trên cơ sở dữ liệu ảnh chụp thương mại được tự động cập nhật hằng tháng.
Không có vòng phản hồi ở đây vì dự đoán của mô hình không ảnh hưởng đến cơ sở dữ liệu ảnh. Tuy nhiên, việc tạo phiên bản cho dữ liệu đầu vào là một vấn đề đáng quan ngại ở đây, vì các bản cập nhật hằng tháng này có thể có tác động không lường trước được đối với mô hình.