Chia tách dữ liệu của bạn

Như ví dụ về tin bài đã minh hoạ, việc phân tách ngẫu nhiên thuần túy không phải lúc nào cũng đúng.

Một kỹ thuật thường gặp đối với hệ thống trực tuyến là chia dữ liệu theo thời gian, sao cho:

  • Thu thập dữ liệu trong 30 ngày.
  • Đào tạo về dữ liệu từ Ngày 1 đến Ngày 29.
  • Đánh giá dựa trên dữ liệu từ Ngày 30.

Đối với các hệ thống trực tuyến, dữ liệu đào tạo cũ hơn dữ liệu phân phát. Vì vậy, kỹ thuật này giúp đảm bảo rằng bộ xác thực của bạn phản ánh độ trễ giữa quá trình đào tạo và quá trình phân phát. Tuy nhiên, cách phân chia dựa trên thời gian hoạt động hiệu quả nhất với các tập dữ liệu rất lớn, chẳng hạn như các tập dữ liệu có hàng chục triệu ví dụ. Đối với các dự án có ít dữ liệu hơn, quá trình phân phối sẽ khác nhau rất nhiều giữa quá trình đào tạo, xác thực và kiểm thử.

Lỗi còn lại của phần tách dữ liệu từ dự án tài liệu máy học được mô tả trong Khoá học máy học. Dữ liệu được viết bởi một trong ba tác giả, vì vậy dữ liệu được chia thành ba nhóm chính. Vì nhóm đã áp dụng cách phân chia ngẫu nhiên, dữ liệu của mỗi nhóm sẽ có trong các nhóm đào tạo, đánh giá và kiểm thử, do đó, mô hình sẽ học hỏi từ thông tin mà không nhất thiết phải có ở thời điểm dự đoán. Vấn đề này có thể xảy ra bất cứ khi nào dữ liệu của bạn được nhóm, cho dù là dữ liệu chuỗi thời gian hay được nhóm theo các tiêu chí khác. Kiến thức về miền có thể cho bạn biết cách phân chia dữ liệu.

Để xem xét thêm, hãy xem các học phần sau trong Khóa học máy học ứng dụng: