Pengambilan Sampel dan Pemisahan: Periksa Pemahaman Anda

Untuk pertanyaan berikut, klik panah yang diinginkan untuk memeriksa jawaban Anda:

Bayangkan Anda memiliki set data dengan rasio positif-negatif 1:1000. Sayangnya, model Anda selalu memprediksi class mayoritas. Teknik apa yang paling tepat untuk membantu Anda mengatasi masalah ini? Perlu diketahui bahwa Anda ingin model tersebut melaporkan kemungkinan yang dikalibrasi.
Hanya lakukan downsample pada contoh negatif.
Itu awal yang baik, tetapi Anda akan mengubah tarif dasar model, sehingga model tidak lagi dikalibrasi.
Melakukan penurunan sampel pada contoh negatif (kelas mayoritas). Kemudian, tambahkan bobot class dengan pengurangan sampel dengan faktor yang sama.
Ini adalah cara yang efektif untuk menangani data yang tidak seimbang dan tetap mendapatkan distribusi label yang sebenarnya. Perlu diingat bahwa Anda perlu peduli apakah model tersebut melaporkan kemungkinan yang dikalibrasi atau tidak. Jika tidak perlu dikalibrasi, Anda tidak perlu khawatir akan mengubah tarif dasar.
Teknik mana yang kehilangan data dari akhir set data? Centang semua yang sesuai.
Pemfilteran PII
Memfilter PII dari data dapat menghapus informasi di akhir dan dapat mendistorsi distribusi Anda.
Pembobotan
Pembobotan contoh mengubah pentingnya contoh yang berbeda, tetapi tidak kehilangan informasi. Sebenarnya, menambahkan bobot ke contoh ekor dapat membantu model Anda mempelajari perilaku ekor.
Pengambilan sampel
Ekor distribusi fitur akan kehilangan informasi dalam downsampling. Namun, karena kami biasanya menurunkan kualitas mayoritas class tersebut, kerugian ini biasanya bukan masalah besar.
Normalisasi
Normalisasi beroperasi pada contoh individual, sehingga tidak menyebabkan bias sampling.
Anda menangani masalah klasifikasi, dan Anda membagi data secara acak ke dalam set pelatihan, evaluasi, dan pengujian. Pengklasifikasi Anda sepertinya berfungsi dengan baik Namun dalam produksi, pengklasifikasi adalah kegagalan total. Kemudian, Anda menemukan bahwa masalah disebabkan oleh pemisahan acak. Jenis data apa yang rentan terhadap masalah ini?
Data deret waktu
Pemisahan acak membagi setiap cluster di seluruh pemisahan pengujian/kereta, dengan menyediakan "pratinjau singkat" ke model yang tidak akan tersedia dalam produksi.
Data yang tidak berubah banyak dari waktu ke waktu
Jika data Anda tidak berubah banyak dari waktu ke waktu, Anda akan memiliki peluang yang lebih baik dengan pemisahan acak. Misalnya, Anda mungkin ingin mengidentifikasi jenis dalam foto, atau memprediksi pasien yang berisiko mengalami kerusakan jantung berdasarkan data biometrik sebelumnya. Dalam kedua kasus tersebut, data umumnya tidak berubah dari waktu ke waktu, sehingga pemisahan acak seharusnya tidak menimbulkan masalah.
Pengelompokan data
Set pengujian akan selalu terlalu mirip dengan set pelatihan karena cluster data yang serupa berada di kedua set. Model ini akan tampak memiliki daya prediktif yang lebih baik daripada model tersebut.
Data dengan burstiness (data yang masuk secara beruntun tidak berurutan, bukan streaming terus-menerus)
Cluster data yang serupa (burst) akan muncul dalam pelatihan dan pengujian. Model ini akan membuat prediksi yang lebih baik dalam pengujian dibandingkan dengan data baru.