Ví dụ về phần tách dữ liệu

Sau khi thu thập dữ liệu và lấy mẫu dữ liệu, nếu cần, bước tiếp theo là chia dữ liệu của bạn thành các tập hợp đào tạo, nhóm xác thựcnhóm kiểm thử.

Khi phương pháp phân tách ngẫu nhiên không phải là phương pháp hay nhất

Mặc dù cách phân chia ngẫu nhiên là giải pháp tốt nhất cho nhiều vấn đề máy học, nhưng không phải lúc nào cũng là giải pháp phù hợp. Ví dụ: hãy xem xét các tập dữ liệu mà trong đó các ví dụ được nhóm tự nhiên thành các ví dụ tương tự.

Giả sử bạn muốn mô hình của mình phân loại chủ đề từ văn bản của một tin bài. Tại sao việc phân tách ngẫu nhiên có vấn đề?

Bốn cụm bài viết riêng biệt (có gắn nhãn "Câu chuyện 1", "Câu chuyện 2",
"Câu chuyện 3" và "Câu chuyện 4") xuất hiện trên
dòng thời gian. Hình 1. Tin bài bị nhóm thành nhiều nhóm.

Tin bài xuất hiện theo cụm: nhiều tin bài về cùng một chủ đề được xuất bản cùng một lúc. Do đó, nếu chúng ta chia tách dữ liệu một cách ngẫu nhiên thì tập kiểm thử và tập huấn luyện sẽ có thể chứa các câu chuyện giống nhau. Trên thực tế, nó sẽ không hoạt động theo cách này vì tất cả các câu chuyện đều xuất hiện cùng một lúc, vì vậy, việc phân chia như thế này sẽ gây ra lỗi.

Các bài viết tương tự từ Hình 1 không còn theo dòng thời gian nữa. Thay vào đó, các bài viết giờ đây sẽ được chia ngẫu nhiên thành một tập hợp huấn luyện và một tập hợp kiểm thử. Tập hợp nội dung đào tạo và tập hợp kiểm thử đều chứa tập hợp các ví dụ khác nhau trong cả 4 câu chuyện. Hình 2. Hành động phân tách ngẫu nhiên sẽ chia một cụm thành các nhóm, gây sai lệch.

Một cách đơn giản để khắc phục vấn đề này là chia nhỏ dữ liệu của chúng tôi dựa trên thời điểm tin bài được xuất bản, có thể là vào ngày mà tin bài được xuất bản. Nhờ đó, những tin bài trong cùng một ngày sẽ được đưa vào cùng một phân đoạn.

Tiến trình ban đầu từ Hình 1 hiện được chia thành một tập hợp huấn luyện và một tập hợp kiểm thử. Tất cả bài viết từ "Câu chuyện 1" và "Câu chuyện 2"
đều nằm trong bộ đào tạo và tất cả bài viết từ "Câu chuyện 3" và "Câu chuyện 4"
đều ở trong bộ thử nghiệm. Hình 3. Việc phân tách đúng thời gian cho phép các cụm chủ yếu kết thúc trong cùng một nhóm.

Với hàng chục nghìn tin bài trở lên, tỷ lệ phần trăm có thể được chia cho các ngày. Tuy nhiên, điều đó không có vấn đề gì; trên thực tế, những câu chuyện này được chia nhỏ trong hai chu kỳ tin tức. Ngoài ra, bạn có thể loại bỏ dữ liệu trong một khoảng cách nhất định để đảm bảo không bị chồng chéo. Ví dụ: bạn có thể đào tạo các câu chuyện trong tháng 4, sau đó sử dụng tuần thứ hai của tháng 5 làm tập kiểm thử, với khoảng trống tuần để ngăn chặn sự trùng lặp.