Kualitas dan interpretasi data

"Sampah masuk, sampah keluar."
— Peribahasa pemrograman awal

Di bawah setiap model ML, setiap perhitungan korelasi, dan setiap model ML rekomendasi kebijakan terletak satu atau beberapa set data mentah. Tidak peduli seberapa indah mencolok atau persuasif terhadap produk akhir, jika data yang mendasarinya yang keliru, dikumpulkan dengan buruk, atau berkualitas rendah, model yang dihasilkan, prediksi, visualisasi, atau kesimpulan juga akan rendah. {i>sandwich<i} itu. Siapa pun yang memvisualisasikan, menganalisis, dan melatih model harus mengajukan pertanyaan sulit tentang sumber data mereka.

Instrumen pengumpul data dapat mengalami malfungsi atau dikalibrasi dengan buruk. Manusia yang mengumpulkan data bisa saja lelah, nakal, tidak konsisten, atau buruk yang telah kita latih. Orang dapat melakukan kesalahan, dan orang yang berbeda juga bisa cukup tidak sepakat atas klasifikasi sinyal ambigu. Sebagai hasilnya, kualitas dan validitas data dapat terganggu, dan data mungkin gagal mencerminkan kenyataan. Ben Jones, penulis Hindari Data Perangkap, menyebutnya sebagai kesenjangan data-reality, mengingatkan pembaca: "Ini bukan kejahatan, ini dilaporkan kejahatan. Ini bukan jumlah tumbukan meteor, itu adalah jumlah sambaran meteor yang tercatat."

Contoh kesenjangan {i>data-reality<i}:

  • Grafik Jones melonjak dalam pengukuran waktu pada interval 5 menit, dan pengukuran berat dengan interval 5 pon, bukan karena lonjakan semacam itu data, tetapi karena pengumpul data manusia, tidak seperti instrumen, cenderung untuk membulatkan angkanya ke 0 atau 5 terdekat.1

  • Pada tahun 1985, Joe Farman, Brian Gardiner, dan Jonathan Shanklin, bekerja untuk British Antarctic Survey (BAS), menemukan bahwa pengukuran mereka menunjukkan lubang musiman di lapisan ozon di Belahan Bumi Selatan. Ini bertentangan dengan data NASA, yang mencatat tidak ada lubang seperti itu. Richard, fisikawan NASA Stolarski menyelidiki dan menemukan bahwa perangkat lunak pengolah data NASA itu dirancang dengan asumsi bahwa tingkat ozon tidak akan pernah bisa turun di bawah jumlah tertentu, dan pembacaan ozon yang sangat, sangat rendah yang terdeteksi otomatis diabaikan sebagai pencilan yang tidak masuk akal.2

  • Instrumen mengalami beragam mode kegagalan, terkadang sambil tetap mengumpulkan data. Adam Ringler dkk. menyediakan galeri data seismograf pembacaan yang dihasilkan dari kegagalan instrumen (dan kegagalan yang terkait) dalam makalah tahun 2021 "Why Do My Squiggles Look Funny?"3 Aktivitas di contoh pembacaan tidak sesuai dengan aktivitas seismik yang sebenarnya.

Bagi praktisi ML, sangat penting untuk memahami:

  • Siapa yang mengumpulkan data
  • Bagaimana dan kapan data dikumpulkan dan dalam kondisi apa
  • Sensitivitas dan status alat ukur
  • Kegagalan instrumen dan kesalahan manusia seperti apa pada konteks
  • Kecenderungan manusia untuk membulatkan angka dan memberikan jawaban yang diinginkan

Hampir selalu, setidaknya ada perbedaan kecil antara data dan kenyataan, yang juga dikenal sebagai kebenaran dasar. Memperhitungkan perbedaan itu adalah kunci untuk menarik kesimpulan yang baik dan keputusan yang tepat. Hal ini termasuk memutuskan:

  • masalah yang bisa dan harus diselesaikan dengan ML.
  • masalah mana yang tidak bisa diselesaikan dengan ML.
  • masalah yang belum memiliki cukup data berkualitas tinggi untuk diselesaikan dengan ML.

Tanyakan: Apa, dalam arti paling ketat dan harfiah, yang dikomunikasikan oleh data? Sama pentingnya, apa yang tidak disampaikan oleh data?

Kotoran dalam data

Selain menyelidiki kondisi pengumpulan data, {i>dataset<i} sendiri dapat berisi kesalahan, kesalahan, dan nilai nol atau tidak valid (misalnya pengukuran negatif konsentrasi). Data {i>crowd-sourced<i} dapat sangat berantakan. Bekerja dengan {i>dataset<i} dengan kualitas yang tidak diketahui dapat memberikan hasil yang tidak akurat.

Masalah umum mencakup:

  • Kesalahan ejaan nilai {i>string<i}, seperti tempat, spesies, atau nama merek
  • Konversi unit, unit, atau jenis objek yang salah
  • Nilai tidak ada
  • Kesalahan klasifikasi atau kesalahan pelabelan yang terus-menerus
  • Angka signifikan yang tersisa dari operasi matematika yang melebihi angka sensitivitas sebenarnya dari suatu instrumen

Membersihkan {i>dataset<i} sering melibatkan pilihan tentang nilai-nilai {i>null <i}dan yang hilang (apakah menyimpannya sebagai {i>null<i}, menghapus, atau mengganti 0s), mengoreksi ejaan menjadi satu versi, memperbaiki unit dan konversi, dan sebagainya. Model yang lebih canggih teknik ini adalah untuk menyiratkan nilai-nilai yang hilang, yang dijelaskan dalam Karakteristik data di Kursus Singkat Machine Learning.

Sampling, bias survivorship, dan masalah endpoint surrogate

Statistik memungkinkan ekstrapolasi hasil yang valid dan akurat dari sampel acak kepada populasi yang lebih besar. Kerapihan yang tidak diperiksa dari asumsi ini, bersama dengan {i>input<i} pelatihan yang tidak seimbang dan tidak lengkap, telah menyebabkan terhadap kegagalan profil tinggi dari banyak aplikasi ML, termasuk model yang digunakan untuk meninjau resume dan kepolisian. Hal ini juga menyebabkan kegagalan polling dan kesimpulan yang salah tentang kelompok demografis. Dalam sebagian besar konteks di luar data buatan komputer, sampel acak juga terlalu mahal dan terlalu sulit untuk diperoleh. Beragam solusi dan terjangkau {i>proxy<i} digunakan sebagai gantinya, yang memperkenalkan berbagai sumber bias.

Misalnya, untuk menggunakan metode pengambilan sampel bertingkat, Anda harus mengetahui prevalensi setiap stratum sampel di populasi yang lebih besar. Jika Anda berasumsi prevalensi yang sebenarnya tidak benar, hasil Anda akan tidak akurat. Demikian juga, polling online jarang merupakan sampel acak dari populasi nasional, tetapi sebuah sampel dari populasi yang terhubung ke internet (sering dari berbagai negara) yang melihat dan bersedia mengikuti survei. Grup ini cenderung berbeda dari sampel acak yang sebenarnya. Pertanyaan di jajak pendapat adalah contoh pertanyaan yang mungkin. Jawaban untuk pertanyaan polling tersebut adalah, lagi, bukan sebuah sampel acak dari responden pendapat yang sebenarnya, tetapi merupakan sampel pendapat yang nyaman diberikan oleh responden, yang mungkin berbeda dari pendapat yang sebenarnya.

Peneliti kesehatan klinis menghadapi masalah serupa yang dikenal sebagai surrogate masalah endpoint. Karena terlalu lama untuk memeriksa efek obat masa hidup pasien, peneliti menggunakan {i> biomarker proxy<i} yang diasumsikan sebagai terkait dengan masa hidup tetapi mungkin tidak. Kadar kolesterol digunakan sebagai surrogate titik akhir untuk serangan jantung dan kematian yang disebabkan oleh masalah kardiovaskular: jika obat mengurangi kadar kolesterol, dianggap juga menurunkan risiko masalah jantung. Namun, rantai korelasi itu mungkin tidak valid, atau urutan sebab-akibat bisa berbeda dari apa yang diasumsikan peneliti. Lihat Weintraub et al., "Bahaya endpoint surrogate", untuk contoh dan detail lebih lanjut. Situasi yang setara dalam ML adalah label proxy.

Matematikawan, Abraham Wald, terkenal dengan masalah sampling data yang sekarang diketahui bias kelangsungan hidup. Pesawat tempur kembali dengan lubang peluru di di lokasi tertentu dan tidak di lokasi yang lain. Militer AS ingin menambahkan lebih banyak baju besi ke pesawat di area dengan lubang peluru paling banyak, tapi kelompok riset Wald sebaiknya gunakan armor yang ditambahkan ke area tanpa lubang peluru. Mereka menyimpulkan dengan benar bahwa sampel data mereka tidak tepat karena pesawat menembak daerah-daerah itu rusak sangat parah sehingga mereka tidak dapat kembali ke markas.

Garis luar bidang dengan titik-titik merah yang menunjukkan lubang berpeluru
Diagram hipotetis kerusakan akibat peluru pada pesawat pembom PDII yang masih hidup

Memiliki model yang merekomendasikan baju besi hanya dilatih dengan diagram pengembalian pesawat tempur, tanpa wawasan tentang bias kelangsungan hidup yang ada dalam data, model itu akan merekomendasikan untuk memperkuat area dengan lubang lebih banyak.

Bias seleksi mandiri dapat muncul dari subjek manusia yang menjadi sukarelawan untuk berpartisipasi dalam suatu penelitian. Tahanan termotivasi untuk mendaftar dalam program pengurangan residivisme misalnya, dapat mewakili populasi yang cenderung tidak berkomitmen kejahatan di masa depan daripada populasi narapidana pada umumnya. Hal ini akan mendistorsi hasil.4

Masalah pengambilan sampel yang lebih halus adalah bias perolehan, yang melibatkan fleksibilitas subjek manusia memori. Pada tahun 1993, Edward Giovannucci bertanya pada kelompok yang sesuai usia wanita, beberapa di antaranya telah didiagnosis menderita kanker, tentang pola makan mereka kebiasaan Anda. Perempuan yang sama telah mengikuti survei tentang kebiasaan diet sebelum didiagnosis kanker. Apa yang ditemukan Giovannucci adalah bahwa wanita tanpa kanker yang berbeda mengingat diet mereka secara akurat, tetapi wanita yang menderita kanker payudara mengonsumsi lebih banyak lemak daripada yang mereka laporkan sebelumnya—secara tidak sadar memberikan penjelasan yang mungkin (meskipun tidak akurat) terkait kanker mereka.5

Tanyakan:

  • Apa yang dimaksud dengan pengambilan sampel dari set data?
  • Berapa jumlah tingkat pengambilan sampel yang ada?
  • Bias apa yang mungkin muncul pada setiap tingkat pengambilan sampel?
  • Apakah pengukuran proxy digunakan (baik penanda biologis maupun polling atau butir online hole) yang menunjukkan korelasi atau kausalitas yang sebenarnya?
  • Hal apa yang mungkin hilang dari sampel dan metode pengambilan sampel?

Modul Keadilan di Kursus Singkat Machine Learning membahas cara mengevaluasi dan melakukan mitigasi sumber bias tambahan dalam {i>dataset<i} demografis.

Definisi dan peringkat

Definisikan istilah dengan jelas dan tepat, atau tanyakan tentang definisi yang jelas dan tepat. Hal ini diperlukan untuk memahami fitur data apa yang sedang dipertimbangkan dan apa sebenarnya yang diprediksi atau diklaim. Charles Wheelan, dalam Naked Statistics, menawarkan "kesehatan AS manufaktur" sebagai contoh istilah yang ambigu. Apakah manufaktur AS "sehat" atau tidak sepenuhnya tergantung pada bagaimana istilah didefinisikan. Greg Ip Artikel Maret 2011 di The Economist menggambarkan ambiguitas ini. Jika metrik untuk "kesehatan" adalah "manufaktur {i>output<i}," lalu di tahun 2011, manufaktur AS semakin sehat. Jika "kesehatan" metrik didefinisikan sebagai "pekerjaan manufaktur", Namun, manufaktur AS mengalami penurunan.6

Peringkat sering kali disebabkan oleh masalah serupa, termasuk dikaburkan atau tidak masuk akal bobot yang diberikan untuk berbagai komponen peringkat, inkonsistensi, dan opsi tidak valid. Malcolm Gladwell, yang menulis di The New Yorker, menyebutkan Ketua Mahkamah Agung Michigan, Thomas Brennan, yang pernah mengirim survei ke seratus pengacara yang meminta mereka untuk menilai 10 sekolah hukum berdasarkan kualitas, beberapa beberapa tidak. Para pengacara tersebut memberi peringkat sekolah hukum Penn State sekitar lima meskipun pada saat survei, Penn State tidak memiliki hukum sekolah.7 Banyak peringkat terkenal menyertakan tingkat subjektif yang serupa komponen reputasi. Tanyakan komponen apa saja yang termasuk dalam peringkat, dan mengapa hal tersebut komponen diberi bobot khusus.

Angka kecil dan efek besar

Tidak mengherankan mendapatkan kepala 100% atau 100% ekor jika melempar koin dua kali. Juga tidak mengherankan jika ada 25% kepala setelah melempar koin empat kali, kemudian 75% kepala untuk empat putaran berikutnya, meskipun itu menunjukkan peningkatan yang sangat besar (yang bisa secara keliru dikaitkan dengan roti yang dimakan di antara rangkaian lemparan koin, atau faktor palsu lainnya). Tapi karena jumlah dari kenaikan koin, katakanlah 1.000 atau 2.000, penyimpangan persentase besar dari 50% yang diharapkan menjadi sangat tidak mungkin.

Jumlah subjek pengukuran atau percobaan dalam penelitian sering dirujuk sebagai N. Perubahan proporsional yang besar karena kesempatan cenderung jauh lebih mungkin muncul dalam set data dan sampel dengan N rendah.

Saat melakukan analisis atau mendokumentasikan {i>dataset<i} di Kartu Data, tentukan N, sehingga orang lain dapat mempertimbangkan pengaruh derau dan keacakan.

Karena kualitas model cenderung diskalakan dengan jumlah contoh, set data dengan N rendah cenderung menghasilkan model berkualitas rendah.

Regresi ke mean

Demikian pula, setiap pengukuran yang memiliki pengaruh dari kebetulan tunduk pada yang dikenal sebagai regresi ke nilai rerata. Ini menjelaskan cara pengukuran setelah pengukuran yang sangat ekstrem adalah, rata-rata, cenderung kurang ekstrem, atau lebih mendekati nilai rata-rata, karena pengukuran ekstrem tidak mungkin terjadi sejak awal. Tujuan akan lebih jelas jika kelompok yang berada di atas rata-rata atau di bawah rata-rata dipilih untuk pengamatan, apakah kelompok itu adalah orang-orang tertinggi di populasi, atlet terburuk dalam suatu tim, atau mereka yang paling berisiko terkena stroke. Tujuan anak-anak dari orang tertinggi rata-rata cenderung lebih pendek daripada mereka orang tua, atlet terburuk cenderung akan tampil lebih baik setelah musim yang buruk, dan mereka yang paling berisiko terkena stroke cenderung memiliki risiko setelah intervensi atau pengobatan apa pun, bukan karena faktor penyebab, tetapi karena sifat dan probabilitas keacakan.

Salah satu mitigasi untuk efek regresi terhadap rata-rata, ketika mengeksplorasi intervensi atau pengobatan untuk kelompok di atas rata-rata atau di bawah rata-rata, adalah untuk bagi subjek ke dalam kelompok studi dan kelompok kontrol untuk mengisolasi efek kausalitas. Dalam konteks ML, fenomena ini menyarankan untuk membayar ekstra perhatikan model apa pun yang memprediksi nilai yang luar biasa atau pencilan, seperti:

  • cuaca atau suhu ekstrem
  • toko atau atlet dengan performa terbaik
  • video terpopuler di situs

Jika prediksi berkelanjutan model nilai yang luar biasa dari waktu ke waktu tidak sesuai dengan kenyataan, misalnya memprediksi bahwa toko atau video yang sangat sukses akan terus sukses padahal kenyataannya tidak, tanyakan:

  • Apakah regresi ke rata-rata menjadi masalahnya?
  • Apakah fitur dengan bobot tertinggi sebenarnya lebih prediktif dibandingkan fitur dengan bobot yang lebih rendah?
  • Apakah mengumpulkan data yang memiliki nilai dasar untuk fitur tersebut, sering kali nol (grup kontrol secara efektif) mengubah prediksi model?

Referensi

Huff, Darrell. Cara Berbohong dengan Statistik. NY: W.W. Norton, 1954.

Jaka, Ben. Menghindari Kesalahan Data. Hoboken, NJ: Wiley, 2020.

O'Connor, Cailin dan James Owen Weatherall. Era Misinformasi. New Haven: Yale UP, 2019.

Ringler, Adam, David Mason, Gabi Laske, dan Mary Templeton. "Mengapa Bintik-bintik Saya Terlihat Lucu? Galeri Sinyal Seismik yang Tersusupi." Surat Riset Seismologi 92 no. 6 (Juli 2021). DOI: 10.1785/0220210094

Weintraub, William S, dan Thomas F. Lüscher, dan Stuart Pocock. "Risiko endpoint surrogate." Jurnal Jantung Eropa 36 no. 33 (Sep 2015): 2212–2218. DOI: 10,1093/eurheartj/ehv164

Roda, Charles. Statistik Polos: Menghapus Rasa Takut dari Data. NY: W.W. Norton, 2013

Referensi gambar

"Bias keberlangsungan." Martin Grandjean, McGeddon, dan Cameron Moll 2021. CC BY-SA 4.0. Sumber


  1. Jones 25-29. 

  2. O'Connor dan Weatherall 22-3. 

  3. Ringling dkk.

  4. Roda 120. 

  5. Sidharta Mukherjee "Apakah Ponsel Menyebabkan Kanker Otak?" dalam The New York Times, 13 April 2011. Dikutip dalam Wheelan 122. 

  6. Roda 39-40. 

  7. Malcolm Gladwell "Urutan Hal", dalam The New Yorker 14 Feb 2011. Dikutip dalam Wheelan 56.