Tujuan pembelajaran
Dalam modul ini, Anda akan belajar:
- Menyelidiki potensi masalah yang mendasari set data mentah atau diproses, termasuk pengumpulan data dan masalah kualitas.
- Mengidentifikasi bias, inferensi yang tidak valid, dan rasionalisasi.
- Temukan masalah umum dalam analisis data, termasuk korelasi, keterkaitan, dan tidak relevan.
- Periksa bagan untuk masalah umum, mispersepsi, dan tampilan dan pilihan desain yang menyesatkan.
Motivasi ML
Meskipun tidak secanggih arsitektur model dan pekerjaan model downstream lainnya, eksplorasi, dokumentasi, dan pra-pemrosesan data sangat penting untuk ML. Praktisi ML dapat termasuk dalam apa yang Nithya Sambasivan et al. disebut penyusunan data dalam makalah ACM 2021 jika mereka tidak memahami secara mendalam:
- kondisi pengumpulan data
- kualitas, karakteristik, dan keterbatasan data
- data apa yang bisa dan tidak bisa ditampilkan
Sangat mahal untuk melatih model pada data yang buruk dan hanya mencari tahu pada titik output berkualitas rendah bahwa ada masalah dengan data. Demikian juga, kegagalan untuk memahami batasan data, manusia bias dalam mengumpulkan data, atau salah memahami korelasi kausalitas, dapat mengakibatkan hasil yang menjanjikan dan kurang tayang, yang dapat menyebabkan hilangnya kepercayaan.
Kursus ini membahas jebakan data umum, tetapi halus yang tidak diketahui oleh ML dan data yang mungkin dihadapi praktisi dalam pekerjaan mereka.