Ringkasan

Materi ini telah membahas banyak perangkap data umum, mulai dari kualitas {i>dataset<i} hingga berpikir untuk visualisasi dan analisis statistik.

Praktisi ML sebaiknya bertanya:

  • Seberapa baik saya memahami karakteristik {i>dataset<i} saya dan kondisi apa yang digunakan untuk mengumpulkan data tersebut?
  • Masalah kualitas atau bias apa yang ada dalam data saya? Merupakan faktor pengacau sekarang?
  • Apa potensi masalah downstream yang dapat timbul dari penggunaan {i>dataset<i} tersebut?
  • Saat melatih model yang membuat prediksi atau klasifikasi: melakukan set data yang digunakan untuk melatih model berisi semua variabel yang relevan?

Apa pun temuan mereka, praktisi ML harus selalu memeriksa diri mereka sendiri untuk bias konfirmasi, kemudian memeriksa temuan mereka terhadap intuisi dan akal sehat, dan melakukan investigasi di mana pun data tersebut bertentangan dengan ini.

Bacaan tambahan

Kairo, Alberto. Cara Diagram Berbohong: Menjadi Lebih Cerdas tentang Informasi Visual. NY: W.W. Norton, 2019.

Huff, Darrell. Cara Berbohong dengan Statistik. NY: W.W. Norton, 1954.

Monmonier, Mark. How to Lie with Maps, edisi ke-3. Chicago: U of Chicago P, 2018.

Jaka, Ben. Menghindari Kesalahan Data. Hoboken, NJ: Wiley, 2020.

Roda, Charles. Statistik Polos: Menghapus Rasa Takut dari Data. NY: W.W. Norton, 2013