Contoh Pemisahan Data

Setelah mengumpulkan data dan pengambilan sampel jika diperlukan, langkah berikutnya adalah membagi data Anda menjadi set pelatihan, set validasi, dan set pengujian.

Ketika Memisahkan Secara Acak bukanlah Pendekatan Terbaik

Meskipun pemisahan acak adalah pendekatan terbaik untuk banyak masalah ML, pemisahan tersebut tidak selalu merupakan solusi yang tepat. Misalnya, pertimbangkan set data yang contohnya dikelompokkan secara alami ke dalam contoh serupa.

Misalnya, Anda ingin model mengklasifikasikan topik dari teks artikel berita. Mengapa pemisahan acak dapat menimbulkan masalah?

Empat kelompok artikel terpisah (berlabel "Story 1", "Story 2",
"Story 3", dan "Story 4") muncul di
linimasa. Gambar 1. Kisah Berita Dikelompokkan.

Artikel berita muncul dalam cluster: beberapa artikel tentang topik yang sama dipublikasikan pada waktu yang hampir bersamaan. Oleh karena itu, jika kita membagi data secara acak, set pengujian dan set pelatihan kemungkinan akan berisi cerita yang sama. Kenyataannya, cara ini tidak akan berfungsi karena semua cerita akan masuk pada waktu yang sama, sehingga melakukan pemisahan seperti ini akan menimbulkan kekurangan.

Artikel yang sama dari Gambar 1 tidak lagi ada di linimasa. Sebaliknya, artikel sekarang dibagi secara acak menjadi
set pelatihan dan pengujian. Set pelatihan dan pengujian
masing-masing berisi campuran contoh yang berbeda dari keempat
artikel. Gambar 2. Pemisahan acak akan membagi cluster di seluruh kumpulan, yang menyebabkan distorsi.

Pendekatan sederhana untuk memperbaiki masalah ini adalah membagi data berdasarkan waktu publikasi berita, mungkin berdasarkan hari publikasi artikel. Hal ini membuat artikel dari hari yang sama ditempatkan dalam pemisahan yang sama.

Linimasa asli dari Gambar 1 sekarang dibagi menjadi set
pelatihan dan set pengujian. Semua artikel dari &}} Gambar 3. Pembagian tepat waktu memungkinkan sebagian besar cluster berada di kumpulan yang sama.

Dengan puluhan ribu artikel berita atau lebih, persentase dapat dibagi sepanjang hari. Tidak apa-apa; pada kenyataannya, cerita ini dibagi menjadi dua dalam siklus berita. Atau, Anda dapat membuang data dalam jarak tertentu dari batas waktu tersebut untuk memastikan tidak ada tumpang tindih. Misalnya, Anda dapat melatih cerita untuk bulan April, lalu menggunakan minggu kedua Mei sebagai set pengujian, dengan jeda minggu mencegah tumpang-tindih.