Perangkap analisis

"Semua model salah tetapi ada beberapa model yang berguna." - George Box, 1978

Meskipun ampuh, teknik statistik memiliki keterbatasan. Memahami batasan-batasan ini dapat membantu peneliti menghindari kesalahan dan klaim yang tidak akurat, seperti Pernyataan BF Skinner bahwa Shakespeare tidak menggunakan aliterasi lebih dari kita akan memprediksi keacakan. (Studi Skinner adalah kurang bertenaga.1)

Kolom ketidakpastian dan error

Anda perlu menentukan ketidakpastian dalam analisis Anda. Hal yang sama pentingnya untuk mengukur ketidakpastian dalam analisis orang lain. Titik data yang muncul untuk memetakan tren pada grafik, tetapi memiliki batang {i>error<i} yang tumpang tindih, mungkin tidak menunjukkan pola apa pun. Ketidakpastian juga bisa terlalu tinggi untuk menarik kesimpulan dari studi atau uji statistik tertentu. Jika sebuah studi penelitian memerlukan akurasi tingkat lot, set data geospasial dengan ketidakpastian +/- 500 m terlalu banyak ketidakpastian untuk dapat digunakan.

Selain itu, tingkat ketidakpastian mungkin berguna selama pengambilan keputusan proses-proses tersebut. Data yang mendukung pengolahan air tertentu dengan ketidakpastian 20% dalam hasilnya dapat mengarah pada rekomendasi untuk penerapan air tersebut dengan pemantauan berkelanjutan terhadap program untuk mengatasi ketidakpastian tersebut.

Jaringan neural Bayesian dapat mengukur ketidakpastian dengan memprediksi distribusi nilai daripada masing-masing.

Tidak memiliki relevansi

Seperti yang telah dibahas di pendahuluan, selalu ada sedikit celah antara data dan kebenaran dasar. Praktisi ML yang cerdas harus membuktikan apakah {i>dataset<i} tersebut relevan dengan pertanyaan yang diajukan.

Huff menjelaskan studi opini publik awal yang menemukan bahwa orang kulit putih Amerika jawaban atas pertanyaan tentang betapa mudahnya bagi orang Amerika Kulit Hitam untuk membuat berhubungan langsung dan berbanding lurus dengan tingkat simpati terhadap orang Amerika Kulit Hitam. Ketika animus rasial meningkat, respons tentang peluang ekonomi yang diharapkan menjadi semakin optimis. Hal ini bisa disalahpahami sebagai tanda kemajuan. Namun, penelitian ini tidak dapat menunjukkan apa pun tentang peluang ekonomi yang tersedia bagi orang Amerika berkulit hitam pada saat itu, dan tidak cocok untuk menarik kesimpulan tentang realitas pasar kerja—hanya pendapat responden survei. Data yang dikumpulkan faktanya tidak relevan dengan kondisi pasar kerja.2

Anda dapat melatih model dengan data survei seperti yang dijelaskan di atas, dengan output sebenarnya mengukur optimisme, bukan peluang. Tapi karena peluang prediksi tidak relevan dengan peluang sebenarnya, jika Anda mengklaim bahwa model ini memprediksi peluang sebenarnya, tidak sesuai dengan prediksi model.

Kebingungan

Variabel pengganggu, pembingungan, atau kofaktor adalah variabel sedang tidak diteliti bahwa mempengaruhi variabel yang sedang diteliti dan dapat mendistorsi hasilnya. Misalnya, pertimbangkan model ML yang memprediksi tingkat kematian untuk suatu input negara berdasarkan fitur kebijakan kesehatan masyarakat. Misalkan median usia bukanlah fitur. Selanjutnya anggaplah bahwa beberapa negara memiliki populasi dibandingkan yang lain. Dengan mengabaikan variabel pengacau dari usia rata-rata, model ini dapat memprediksi tingkat kematian yang salah.

Di Amerika Serikat, ras sering berkorelasi kuat dengan sosial ekonomi kelas, meskipun hanya ras, dan bukan kelas, dicatat dengan data kematian. Hal-hal yang membingungkan terkait kelas, seperti akses ke layanan kesehatan, nutrisi, pekerjaan berbahaya, dan perumahan yang aman, mungkin memiliki pengaruh yang lebih kuat pada tingkat kematian daripada ras, tetapi diabaikan karena tidak disertakan dalam set data.3 dan mengontrol kekacauan ini sangat penting untuk membangun model yang berguna dan menarik kesimpulan yang bermakna dan akurat.

Jika model dilatih berdasarkan data kematian yang ada, yang mencakup ras, tetapi tidak AI generatif dapat memprediksi kematian berdasarkan ras, meskipun kelasnya lebih kuat prediktor kematian. Hal ini dapat menyebabkan asumsi yang tidak akurat tentang kausalitas dan prediksi yang tidak akurat tentang kematian pasien. Praktisi ML harus menanyakan apakah ada ketidaksesuaian dalam data mereka, serta apa arti variabel mungkin hilang di {i>dataset<i} mereka.

Pada tahun 1985, Perawat Health Study, studi kelompok observasi dari Harvard Medical School dan Harvard School of Public Health, menemukan bahwa anggota kelompok menggunakan terapi penggantian estrogen memiliki insiden serangan jantung yang lebih rendah dibandingkan dengan anggota kelompok yang tidak pernah menggunakan estrogen. Akibatnya, dokter meresepkan estrogen untuk pasien menopause dan pascamenopause selama beberapa dekade, hingga studi klinis di Pada tahun 2002, mengidentifikasi risiko kesehatan yang disebabkan oleh terapi estrogen jangka panjang. Praktik pemberian resep estrogen kepada wanita pasca menopause dihentikan, tetapi tidak sebelum diperkirakan menyebabkan puluhan ribu kematian dini.

Beberapa kebingungan dapat menyebabkan terjadinya pengaitan. Para ahli epidemi menemukan wanita yang menggunakan terapi penggantian hormon, dibandingkan dengan wanita yang tidak, cenderung kurus, lebih berpendidikan, lebih kaya, lebih sadar akan kesehatannya, dan lebih mungkin untuk berolahraga. Dalam berbagai penelitian, pendidikan dan kekayaan ditemukan dapat mengurangi risiko penyakit jantung. Efek tersebut akan membingungkan korelasi yang jelas antara terapi estrogen dan serangan jantung.4

Persentase dengan angka negatif

Hindari penggunaan persentase jika ada angka negatif,5 karena semua jenis keuntungan dan kerugian yang bermakna dapat terhalang. Asumsikan, secara sederhana bahwa industri restoran memiliki 2 juta pekerjaan. Jika industri kehilangan 1 juta dari pekerjaan tersebut pada akhir Maret 2020, tidak mengalami perubahan bersih selama sepuluh tahun bulan Februari 2021, dan memperoleh 900.000 pekerjaan dari tahun ke tahun dibandingkan pada awal Maret 2021 akan menunjukkan hanya 5% hilangnya pekerjaan di restoran. Dengan asumsi tidak ada perubahan lain, perbandingan year over year pada akhir Februari Tahun 2022 menunjukkan peningkatan 90% dalam pekerjaan restoran, yang sangat berbeda gambaran mengenai kenyataan.

Pilih angka sebenarnya, yang dinormalisasi sesuai kebutuhan. Lihat Bekerja dengan Angka Cata untuk lebih banyak.

Kekeliruan post-hoc dan korelasi yang tidak dapat digunakan

Kekeliruan post-hoc adalah asumsi bahwa, karena peristiwa A diikuti oleh peristiwa B, peristiwa A menyebabkan peristiwa B. Sederhananya, ini mengasumsikan hubungan sebab-akibat, di mana satu hal tidak ada. Lebih sederhana lagi: korelasi tidak membuktikan kausalitas.

Selain hubungan sebab-akibat yang jelas, korelasi juga dapat timbul dari:

  • Peluang murni (lihat Tyler Vigen's Korelasi palsu ilustrasi, termasuk korelasi yang kuat antara tingkat perceraian di Maine dan konsumsi margarin).
  • Hubungan nyata antara dua variabel, meskipun masih belum jelas variabel bersifat kausatif dan mana yang terpengaruh.
  • Ketiga, penyebab terpisah yang mempengaruhi kedua variabel, meskipun variabel yang berkorelasi tidak berhubungan satu sama lain. Inflasi global, sebesar contoh, dapat menaikkan harga yacht dan seledri.6

Juga berisiko untuk mengekstrapolasi korelasi melewati data yang ada. Huff menunjukkan bahwa hujan akan memperbaiki panen, tetapi terlalu banyak hujan akan merusak mereka; hubungan antara hujan dan hasil panen tidak linier.7 (Lihat dua bagian berikutnya untuk informasi lebih lanjut tentang hubungan nonlinier.) Jaka mencatat bahwa dunia ini penuh dengan peristiwa yang tidak dapat diprediksi, seperti perang dan kelaparan, yang menjadi subjek perkiraan data deret waktu mendatang terhadap ketidakpastian yang sangat besar.8

Lebih jauh lagi, bahkan korelasi yang sebenarnya berdasarkan sebab dan akibat mungkin tidak berguna untuk membuat keputusan. Huff memberikan, sebagai contoh, korelasi antara pernikahan dan pendidikan perguruan tinggi pada tahun 1950-an. Wanita yang pergi ke perguruan tinggi lebih kecil kemungkinannya untuk menikah, tetapi bisa saja terjadi bahwa wanita yang kuliah di perguruan tinggi cenderung tidak mau menikah. Jika itu yang terjadi, pendidikan perguruan tinggi tidak mengubah peluang mereka menikah.9

Jika sebuah analisis mendeteksi korelasi antara dua variabel dalam sebuah {i>dataset<i}, tanyakan:

  • Jenis korelasi apakah ini: sebab-akibat, palsu, tidak diketahui relasional, atau disebabkan oleh variabel ketiga?
  • Seberapa berisiko ekstrapolasi dari data? Setiap prediksi model pada data tidak ada dalam {i>dataset<i} pelatihan, melainkan, interpolasi atau ekstrapolasi dari data.
  • Dapatkah korelasi digunakan untuk membuat keputusan yang berguna? Misalnya, optimisme bisa sangat berkorelasi dengan kenaikan upah, tetapi analisis sentimen dari beberapa korpus data teks berukuran besar, seperti media sosial entri oleh pengguna di negara tertentu, itu tidak akan berguna untuk memprediksi peningkatan upah di negara tersebut.

Ketika melatih sebuah model, praktisi ML umumnya mencari fitur yang berkorelasi kuat dengan labelnya. Jika hubungan antara fitur dan labelnya tidak dapat dipahami dengan baik, hal ini dapat menyebabkan masalah yang dijelaskan di bagian ini, termasuk model berdasarkan korelasi dan model palsu yang mengasumsikan tren historis akan berlanjut di masa depan, padahal faktanya tidak melakukannya.

Bias linear

Di beberapa "Pemikiran Linear dalam Dunia Nonlinier", Bart de Langhe, Stefano Puntoni, dan Richard Larrick menggambarkan bias linear sebagai kecenderungan otak manusia untuk mengharapkan dan mencari hubungan linier, meskipun banyak fenomena tidak linier. Hubungan antara sikap manusia dan perilaku, misalnya, kurva cembung dan bukan garis. Dalam Journal of 2007 Makalah Kebijakan Konsumen yang dikutip oleh de Langhe et al., Jenny van Doorn et.al. membuat model hubungan antara kekhawatiran Anda tentang dan perilaku responden pembelian produk organik. Mereka dengan kekhawatiran yang paling ekstrem tentang lingkungan membeli lebih banyak produk organik, tapi ada banyak sedikit perbedaan di antara seluruh responden lainnya.

Pembelian produk organik versus skor kepedulian lingkungan,
  yang sebagian besar menampilkan garis datar dengan kurva cembung tajam ke atas di ujung kanan
Grafik pembelian organik versus skor masalah lingkungan yang disederhanakan dan diadaptasi dari van Doorn et al. makalah

Saat merancang model atau studi, pertimbangkan kemungkinan membentuk hubungan. Karena pengujian A/B mungkin melewatkan hubungan nonlinier, pertimbangkan juga untuk menguji kondisi, C. Pertimbangkan juga apakah perilaku awal yang muncul linear, atau apakah data di masa depan mungkin akan menunjukkan lebih banyak logaritma atau perilaku nonlinear lainnya.

Kecocokan linear untuk data logaritmik yang menunjukkan kecocokan untuk
  setengah dari data dan semakin tidak cocok setelah itu.
Contoh kesesuaian linear yang buruk dengan data logaritma

Contoh hipotesis ini menunjukkan kesesuaian linear yang salah untuk data logaritmik. Jika hanya beberapa titik data pertama yang tersedia, keduanya akan menggoda dan salah untuk mengasumsikan hubungan linear yang sedang berlangsung antar variabel.

Interpolasi linear

Memeriksa interpolasi antara titik data, karena interpolasi memasukkan titik-titik fiksi, dan interval antara pengukuran yang sebenarnya berisi fluktuasi yang berarti. Sebagai contoh, pertimbangkan hal berikut visualisasi empat titik data yang terhubung dengan interpolasi linier:

Amplitudo seiring waktu menunjukkan empat titik yang terhubung dengan garis lurus.
Contoh interpolasi linear.

Kemudian, pertimbangkan contoh fluktuasi ini di antara titik data yang dihapus dengan interpolasi linear:

Poin yang sama seperti sebelumnya, tetapi dengan fluktuasi yang sangat besar antara poin kedua dan ketiga.
Contoh fluktuasi yang bermakna (gempa bumi) antartitik data.

Contoh ini dibuat karena seismograf mengumpulkan data kontinu, dan gempa bumi ini tidak akan Anda lewatkan. Namun, diagram ini berguna untuk menggambarkan asumsi yang dibuat oleh interpolasi, dan fenomena nyata yang yang mungkin terlewatkan oleh praktisi.

Fenomena Runge

Fenomena Runge, juga yang dikenal sebagai "{i>wiggle<i} polinomial," merupakan masalah kebalikan dari spektrum dari interpolasi linear dan bias linear. Saat memasang polinomial interpolasi ke data, Anda dapat menggunakan polinomial dengan derajat terlalu tinggi (derajat, atau urutan, menjadi eksponen tertinggi dalam persamaan polinomial). Ini menghasilkan osilasi ganjil di tepi. Misalnya, menerapkan interpolasi polinomial derajat 11, yang berarti bahwa istilah dengan urutan tertinggi di persamaan polinomial memiliki \(x^{11}\), menjadi data kira-kira linear, prediksi yang sangat buruk di awal dan akhir {i>range of data <i}(rentang data):

Agak linier
  data yang dilengkapi dengan interpolasi polinomial derajat 11, menunjukkan
  lonjakan ke atas antara dua titik data pertama dan lonjakan tajam ke bawah
  antara dua titik data terakhir
Contoh gerak polinomial

Dalam konteks ML, fenomena analog overfitting.

Kegagalan statistik untuk dideteksi

Terkadang uji statistik mungkin terlalu berdaya untuk mendeteksi efek kecil. Daya yang rendah dalam analisis statistik berarti rendahnya peluang untuk benar mengidentifikasi peristiwa benar, dan karena itu sangat mungkin untuk menghasilkan negatif palsu. Katherine Button, dkk. menulis di Alam: "Ketika studi di bidang tertentu dirancang dengan kekuatan 20%, itu berarti bahwa jika ada 100 item asli apa yang akan ditemukan di bidang itu, studi ini diharapkan dapat hanya 20 gambar." Meningkatkan ukuran sampel terkadang dapat membantu, karena dapat desain studi.

Situasi serupa dalam ML adalah masalah klasifikasi dan pilihan batas klasifikasi. Pilihan nilai minimum yang lebih tinggi akan lebih sedikit positif palsu dan lebih banyak negatif palsu, sementara nilai minimum yang lebih rendah menghasilkan positif palsu (PP) dan lebih sedikit negatif palsu (NP).

Selain masalah dengan kekuatan statistik, karena korelasi dirancang untuk mendeteksi hubungan linear, korelasi nonlinear antara variabel yang mungkin terlewatkan. Demikian pula, variabel dapat terkait dengan masing-masing lainnya, tetapi tidak berkorelasi secara statistik. Variabel juga bisa berupa berkorelasi negatif tetapi sama sekali tidak terkait, dalam apa yang dikenal sebagai Paradoks Berkson atau Kekeliruan Berkson. Contoh klasik dari karya Berkson kekeliruan adalah korelasi negatif palsu antara setiap risiko penyakit dan penyakit parah saat melihat jumlah pasien rawat inap rumah sakit (seperti dibandingkan dengan populasi umum), yang timbul dari proses seleksi (suatu kondisi yang cukup parah sehingga mengharuskan perawatan di rumah sakit).

Pertimbangkan apakah salah satu situasi berikut berlaku.

Model sudah tidak berlaku dan asumsi tidak valid

Bahkan model yang bagus pun dapat menurun seiring waktu karena perilaku (dan dunia, untuk hal itu) mungkin berubah. Model prediktif awal Netflix harus dihentikan karena basis pelanggan mereka berubah dari pengguna muda yang paham teknologi menjadi pengguna umum populasi.10

Model juga dapat berisi asumsi diam dan tidak akurat yang mungkin tetap tersembunyi hingga model mengalami kegagalan besar, seperti kerusakan pasar tahun 2008. Tujuan model Value at Risk (VaR) industri keuangan yang diklaim untuk memperkirakan secara tepat kerugian maksimum pada portofolio trader mana pun, katakanlah kehilangan maksimum $100.000 diperkirakan 99% dari total waktu. Tapi dalam kondisi yang tidak normal error, portofolio dengan kerugian maksimum yang diperkirakan sebesar $100.000 kadang-kadang turun $1.000.000 atau lebih.

Model VaR didasarkan pada asumsi yang salah, termasuk yang berikut ini:

  • Perubahan pasar sebelumnya adalah prediksi perubahan pasar di masa mendatang.
  • Distribusi normal (berekor tipis, dan karenanya dapat diprediksi) merupakan yang mendasari prediksi laba.
Distribusi von Mises dengan k=5, menyerupai distribusi Gaussian, dan k=1 dan k=.2 yang datar.
Grafik distribusi von Mises, yang memiliki ujung tipis pada K tinggi dan berekor lemak pada K rendah.

Faktanya, distribusi yang mendasarinya bersifat lemak, "liar," atau fraktal, yang berarti ada risiko yang jauh lebih tinggi dari longtail, ekstrem, dan diduga peristiwa langka yang bisa diprediksi oleh distribusi normal. Sifat energik dari distribusi yang sebenarnya sudah dikenal, tetapi tidak ditindaklanjuti. Apa yang kurang baik diketahui adalah betapa kompleks dan terkait erat berbagai fenomena, termasuk perdagangan berbasis komputer dengan penjualan otomatis.11

Masalah agregasi

Data yang digabungkan, yang mencakup sebagian besar data demografis dan epidemiologi data, tunduk pada serangkaian jebakan tertentu. Paradoks Simpson, atau paradoks amalgamasi, terjadi dalam data gabungan yang memiliki tren menghilang atau berbalik ketika data diagregasikan pada tingkat yang berbeda, karena faktor pengganggu dan kesalahpahaman tentang hubungan sebab akibat.

Kekeliruan ekologis melibatkan ekstrapolasi informasi yang salah tentang populasi pada satu tingkat agregasi ke tingkat agregasi lain, di mana klaim mungkin tidak valid. Suatu penyakit yang menyerang 40% pekerja pertanian di satu provinsi mungkin tidak memiliki prevalensi yang sama di populasi. Sangat mungkin juga akan ada pertanian yang terisolasi atau kota pertanian di provinsi tersebut yang tidak memiliki pengalaman prevalensi penyakit tersebut. Untuk mengasumsikan prevalensi 40% pada mereka yang tidak terpengaruh tempat lain juga akan keliru.

Masalah unit areal yang dapat diubah (MAUP) adalah masalah yang umum terjadi di data geospasial, dijelaskan oleh Stan Openshaw pada tahun 1984 di CATMOG 38. Tergantung pada bentuk dan ukuran area yang digunakan untuk untuk agregat data, seorang praktisi data geospasial dapat menetapkan hampir semua korelasi antarvariabel dalam data. Pemungutan suara menggambar distrik sekolah yang mendukung satu pihak atau pihak lain adalah contoh MAUP.

Semua situasi ini melibatkan ekstrapolasi yang tidak pantas dari satu tingkat agregasi ke yang lain. Tingkat analisis yang berbeda mungkin membutuhkan tingkat analisis agregasi atau bahkan set data yang sama sekali berbeda.12

Perhatikan bahwa data sensus, demografis, dan epidemiologi biasanya digabungkan berdasarkan zona karena alasan privasi, dan zona ini sering kali arbitrer, yaitu tidak berdasarkan batasan-batasan yang ada di dunia nyata. Kapan bekerja dengan jenis data ini, praktisi ML harus memeriksa apakah model performa dan prediksi berubah tergantung pada ukuran dan bentuk zona atau tingkat agregasi, dan jika ya, apakah prediksi model terpengaruh oleh salah satu masalah agregasi ini.

Referensi

Button, Katharine et al. "Kegagalan daya: mengapa ukuran sampel yang kecil mengganggu keandalan ilmu saraf". Alam Reviews Neuroscience vol 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

Kairo, Alberto. Cara Diagram Berbohong: Menjadi Lebih Cerdas tentang Informasi Visual. NY: W.W. Norton, 2019.

Davenport, Thomas H. "A Prediktif Analytics Primer". Di Panduan HBR untuk Data Dasar-Dasar Analytics untuk Manajer (Boston: HBR Press, 2018) 81-86.

De Langhe, Bart, Stefano Puntoni, dan Richard Larrick. "Pemikiran Linear dalam Dunia Nonlinier." Dalam HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 131-154.

Ellenberg, Yordania. Bagaimana Agar Tidak Salah: Kekuatan Pemikiran Matematika. NY: Penguin, 2014.

Huff, Darrell. Cara Berbohong dengan Statistik. NY: W.W. Norton, 1954.

Jaka, Ben. Menghindari Kesalahan Data. Hoboken, NJ: Wiley, 2020.

Openshaw, Stan. "Masalah Unit Areal yang Dapat Diubah," CATMOG 38 (Norwegia, Inggris: Geo Books 1984) 37.

Risiko Pemodelan Keuangan: VaR dan Perubahan Ekonomi, Kongres ke-111 (2009) (kesaksian Nassim N. Taleb dan Richard Bookstaber).

Ritter, Daffa. "Kapan harus Bertindak terkait Korelasi, dan Kapan Tidak Harus." Di Panduan HBR untuk Dasar-Dasar Analisis Data untuk Manajer (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Theodore H., dan Elena A. Varavikova. "Bab 3: Mengukur, Memantau, dan Mengevaluasi Kesehatan Populasi" dalam The New Public Health, edisi ke-3. San Diego: Academic Press, 2014, hal 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny, Peter C. Verhoef, dan Tammo H. A. Bijmolt. "Pentingnya hubungan non-linear antara sikap dan perilaku dalam kebijakan riset ini." Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Referensi gambar

Berdasarkan "Von Mises Distribution". Rainald62, 2018. Sumber


  1. Ellenberg 125. 

  2. Huff 77-79. Huff mengutip Kantor Penelitian Opini Publik Princeton, tetapi dia mungkin telah berpikir tentang Laporan April 1944 oleh National Opinion Research Center di University of Denver. 

  3. Tulchinsky dan Varavikova. 

  4. Gary Taubes Apakah Kita Benar-Benar Tahu Apa yang Membuat Kita Sehat?" dalam The New York Times Magazine, 16 September 2007. 

  5. Ellenberg 78. 

  6. Huff 91-92. 

  7. Huff 93. 

  8. Jones 157-167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. Lihat kesaksian Kongres Nassim N. Taleb dan Richard Bookstaber dalam The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) 11-67. 

  12. Kairo 155, 162.