Các hệ thống học máy sản xuất: Câu hỏi cần đặt ra

Bài học này tập trung vào những câu hỏi bạn nên đặt về dữ liệu và mô hình trong các hệ thống sản xuất.

Mỗi tính năng có hữu ích không?

Bạn nên liên tục theo dõi mô hình để xoá những tính năng đóng góp ít hoặc không đóng góp gì vào khả năng dự đoán của mô hình. Nếu dữ liệu đầu vào cho tính năng đó thay đổi đột ngột, thì hành vi của mô hình cũng có thể thay đổi đột ngột theo những cách không mong muốn.

Ngoài ra, hãy cân nhắc câu hỏi liên quan sau:

  • Tính hữu ích của tính năng này có xứng đáng với chi phí để đưa vào không?

Bạn luôn muốn thêm nhiều tính năng vào mô hình. Ví dụ: giả sử bạn tìm thấy một tính năng mới, việc thêm tính năng này vào sẽ giúp dự đoán của mô hình tốt hơn một chút. Dữ liệu dự đoán chính xác hơn một chút chắc chắn sẽ tốt hơn dữ liệu dự đoán kém chính xác hơn một chút; tuy nhiên, tính năng bổ sung này sẽ làm tăng gánh nặng bảo trì.

Nguồn dữ liệu của bạn có đáng tin cậy không?

Một số câu hỏi cần đặt ra về độ tin cậy của dữ liệu đầu vào:

  • Tín hiệu có luôn có sẵn hay không, hay tín hiệu đó đến từ một nguồn không đáng tin cậy? Ví dụ:
    • Tín hiệu có đến từ một máy chủ gặp sự cố khi có tải nặng không?
    • Tín hiệu này có phải là do những người đi nghỉ vào tháng 8 không?
  • Hệ thống tính toán dữ liệu đầu vào của mô hình có thay đổi không? Nếu có:
    • Tần suất là bao nhiêu?
    • Làm cách nào để bạn biết khi hệ thống đó thay đổi?

Hãy cân nhắc việc tạo bản sao của dữ liệu mà bạn nhận được từ quy trình thượng nguồn. Sau đó, chỉ chuyển sang phiên bản tiếp theo của dữ liệu thượng nguồn khi bạn chắc chắn rằng việc này là an toàn.

Mô hình của bạn có phải là một phần của vòng phản hồi không?

Đôi khi, một mô hình có thể ảnh hưởng đến dữ liệu huấn luyện của chính mô hình đó. Ví dụ: kết quả từ một số mô hình sẽ trở thành (trực tiếp hoặc gián tiếp) các tính năng đầu vào cho chính mô hình đó.

Đôi khi, một mô hình có thể ảnh hưởng đến mô hình khác. Ví dụ: hãy xem xét hai mô hình dự đoán giá cổ phiếu:

  • Mô hình A là một mô hình dự đoán không tốt.
  • Mô hình B.

Vì Model A bị lỗi nên quyết định mua cổ phiếu trong Stock X một cách nhầm lẫn. Những giao dịch mua đó làm tăng giá của Cổ phiếu X. Mô hình B sử dụng giá của Cổ phiếu X làm một đặc điểm đầu vào, vì vậy, Mô hình B có thể đưa ra một số kết luận sai về giá trị của Cổ phiếu X. Do đó, Mô hình B có thể mua hoặc bán cổ phiếu của Cổ phiếu X dựa trên hành vi lỗi của Mô hình A. Đổi lại, hành vi của Mô hình B có thể ảnh hưởng đến Mô hình A, có thể kích hoạt một cơn sốt hoa tulip hoặc sự sụt giảm trong cổ phiếu của Công ty X.

Bài tập: Kiểm tra mức độ hiểu bài

Ba mô hình nào sau đây dễ bị vòng phản hồi?
Mô hình xếp hạng đại học đánh giá các trường một phần theo tính chọn lọc – tỷ lệ phần trăm số sinh viên đã đăng ký được nhận vào trường.
Mô hình thuộc tính khuôn mặt phát hiện xem một người có đang mỉm cười trong ảnh hay không. Mô hình này thường xuyên được huấn luyện trên cơ sở dữ liệu ảnh chụp thương mại được tự động cập nhật hằng tháng.
Mô hình dự báo lưu lượng truy cập dự đoán tình trạng tắc nghẽn tại các lối ra xa lộ gần bãi biển, sử dụng số lượng người trên bãi biển làm một trong các đặc điểm của mô hình.
Mô hình giá trị nhà ở dự đoán giá nhà, sử dụng kích thước (diện tích tính bằng mét vuông), số lượng phòng ngủ và vị trí địa lý làm các đặc điểm.
Mô hình kết quả bầu cử dự đoán người chiến thắng trong cuộc bầu cử thị trưởng bằng cách khảo sát 2% số cử tri sau khi cuộc thăm dò ý kiến kết thúc.
Mô hình đề xuất sách gợi ý những cuốn tiểu thuyết mà người dùng có thể thích dựa trên mức độ phổ biến của chúng (tức là số lần mua sách).