Ringkasan

Kursus ini telah membahas banyak jebakan data umum, mulai dari kualitas set data hingga pemikiran, visualisasi, dan analisis statistik.

Praktisi ML harus bertanya:

  • Seberapa baik saya memahami karakteristik set data saya dan kondisi saat data tersebut dikumpulkan?
  • Masalah kualitas atau bias apa yang ada dalam data saya? Apakah ada faktor perancu?
  • Apa potensi masalah hilir yang dapat muncul dari penggunaan set data tertentu ini?
  • Saat melatih model yang membuat prediksi atau klasifikasi: apakah set data yang digunakan untuk melatih model berisi semua variabel yang relevan?

Apa pun temuan mereka, praktisi ML harus selalu memeriksa diri sendiri untuk mengetahui apakah ada bias konfirmasi, lalu memeriksa temuan mereka berdasarkan intuisi dan akal sehat, serta menyelidiki jika data bertentangan dengan hal tersebut.

Bacaan tambahan

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. NY: W.W. Norton, 2019.

Huff, Darrell. How to Lie with Statistics. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, edisi ke-3. Chicago: U of Chicago P, 2018.

Jones, Ben. Menghindari Kesalahan Data. Hoboken, NJ: Wiley, 2020.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data. NY: W.W. Norton, 2013