Các hệ thống học máy sản xuất: Câu hỏi cần đặt ra

Bài học này tập trung vào những câu hỏi mà bạn nên đặt ra về dữ liệu của mình và mô hình trong hệ thống sản xuất.

Mỗi tính năng có hữu ích không?

Bạn nên liên tục theo dõi mô hình của mình để loại bỏ những tính năng đóng góp rất ít hoặc không ảnh hưởng đến khả năng dự đoán của mô hình. Nếu dữ liệu đầu vào cho đặc điểm đó thay đổi đột ngột thì hành vi của mô hình cũng có thể đột ngột thay đổi theo cách không mong muốn.

Ngoài ra, hãy cân nhắc câu hỏi liên quan sau đây:

  • Tính hữu ích của tính năng này có đáp ứng được chi phí bỏ ra không?

Việc thêm nhiều tính năng vào mô hình luôn là điều hấp dẫn. Ví dụ: giả sử bạn tìm thấy một đối tượng mới có phép thêm vào để dự đoán cho mô hình của bạn tốt hơn một chút. Dự đoán tốt hơn một chút chắc chắn có vẻ tốt hơn gợi ý kém hơn một chút; Tuy nhiên, tính năng bổ sung này sẽ bổ sung gánh nặng bảo trì.

Nguồn dữ liệu của bạn có đáng tin cậy không?

Một số câu hỏi cần đặt ra về độ tin cậy của dữ liệu đầu vào:

  • Tín hiệu sẽ luôn có sẵn hay đến từ một nguồn không đáng tin cậy? Ví dụ:
    • Tín hiệu có đến từ máy chủ gặp sự cố khi quá tải không?
    • Có phải tín hiệu đến từ con người đi nghỉ vào tháng 8 hằng năm không?
  • Hệ thống tính toán dữ liệu đầu vào của mô hình có bao giờ thay đổi không? Nếu có:
    • Tần suất?
    • Làm cách nào để biết khi nào hệ thống đó thay đổi?

Hãy cân nhắc việc tạo bản sao dữ liệu của riêng bạn mà bạn nhận được từ ngược dòng. Sau đó, chỉ chuyển sang phiên bản tiếp theo của phiên bản ngược dòng (upstream) khi bạn chắc chắn rằng việc làm như vậy là an toàn.

Mô hình của bạn có nằm trong vòng hồi tiếp không?

Đôi khi, một mô hình có thể ảnh hưởng đến dữ liệu huấn luyện của chính mô hình đó. Ví dụ: kết quả từ một số mô hình, lần lượt trở thành thông tin đầu vào (trực tiếp hoặc gián tiếp) tính năng vào cùng một mô hình.

Đôi khi, một mô hình có thể ảnh hưởng đến một mô hình khác. Ví dụ: hãy cân nhắc 2 các mô hình dự đoán giá cổ phiếu:

  • Mô hình A là mô hình dự đoán không hiệu quả.
  • Mô hình B.

Vì Mô hình A là xe buggy, nên mẫu xe này quyết định nhầm mua cổ phiếu tại Cổ phiếu X. Những giao dịch mua đó khiến giá của Cổ phiếu X tăng lên. Mô hình B sử dụng giá của Cổ phiếu X làm tính năng đầu vào, vì vậy, Mô hình B có thể đưa ra kết quả là kết luận về giá trị của Cổ phiếu X. Do đó, Mô hình B có thể mua hoặc bán cổ phiếu của Cổ phiếu X dựa trên hành vi lỗi của Mô hình A. Đổi lại, hành vi của Mô hình B có thể ảnh hưởng đến Mô hình A và gây ra tulip mania hoặc trượt vào Cổ phiếu của công ty X.

Bài tập: Kiểm tra kiến thức

Ba mô hình nào sau đây dễ bị nhiễm vòng hồi tiếp?
Mô hình dự báo giao thông dự đoán tình trạng tắc nghẽn ở lối ra trên đường cao tốc gần bãi biển, sử dụng quy mô đám đông bãi biển làm một trong những đặc điểm của nơi đây.
Một số người đi biển có khả năng sẽ căn cứ vào tình hình giao thông dự báo. Nếu có đông người trên bãi biển và giao thông được dự báo là lớn, nhiều người có thể thực hiện các phương án thay thế. Điều này có thể khiến bãi biển dần trở nên ảm đạm giúp dự báo lưu lượng truy cập ít hơn, nhờ đó có thể tăng số người tham dự và chu kỳ này lặp lại.
Mô hình đề xuất sách đề xuất tiểu thuyết mà người dùng có thể thích dựa trên mức độ phổ biến (chẳng hạn như số lần những cuốn sách được đã mua).
Sách đề xuất có khả năng thúc đẩy lượt mua hàng và những đề xuất này doanh số bán hàng bổ sung sẽ được đưa trở lại vào mô hình dưới dạng dữ liệu đầu vào. giúp tăng khả năng đề xuất chính những cuốn sách này trong tương lai.
Một mô hình xếp hạng đại học trong đó xếp hạng các trường một phần theo chọn lọc – tỷ lệ phần trăm học sinh đã đăng ký được cho phép.
Thứ hạng của mô hình có thể thúc đẩy thêm sự quan tâm đến mô hình được xếp hạng cao nhất trường học, làm tăng số lượng đơn đăng ký mà họ nhận được. Nếu các yêu cầu này tiếp tục nhận số lượng học sinh không thay đổi, thì tính chọn lọc sẽ tăng (tỷ lệ học viên được nhận sẽ giảm xuống). Chiến dịch này sẽ thúc đẩy những trường học này thứ hạng cao hơn, từ đó tăng mối quan tâm tiềm năng của học sinh, v.v.
Mô hình kết quả bầu cử giúp dự đoán người chiến thắng thị trưởng bằng cách khảo sát 2% cử tri sau khi các cuộc thăm dò ý kiến kết thúc.
Nếu mô hình không công bố thông tin dự đoán cho đến sau khi cuộc thăm dò ý kiến kết thúc đã đóng, dự đoán không thể ảnh hưởng đến cử tri hành vi.
Mô hình giá trị nhà ở để dự đoán giá nhà, sử dụng kích thước (diện tích tính bằng mét vuông), số phòng ngủ và vị trí địa lý các tính năng.
Bạn không thể thay đổi nhanh vị trí của một ngôi nhà. diện tích hoặc số phòng ngủ phù hợp với dự đoán giá, khiến cho vòng hồi tiếp khó có thể xảy ra. Tuy nhiên, có khả năng mối tương quan giữa kích thước và số phòng ngủ (nhà lớn hơn có nhiều phòng hơn) có thể cần được tách riêng.
Mô hình thuộc tính khuôn mặt phát hiện xem một người có đang cười hay không trong một bức ảnh thường được đào tạo về cơ sở dữ liệu ảnh trên kho ảnh và được tự động cập nhật hằng tháng.
Không có vòng hồi tiếp ở đây, vì dự đoán mô hình không có bất kỳ tác động nào đến cơ sở dữ liệu ảnh. Tuy nhiên, việc tạo phiên bản của dữ liệu đầu vào đáng quan tâm ở đây là dữ liệu do các bản cập nhật hằng tháng này có thể có ảnh hưởng không lường trước đến mô hình.