Manusia tunduk pada bias kognitif karena menjadi manusia, termasuk rasionalisasi dan bias konfirmasi. Alberto Cairo menulis, "Rasionalisasi adalah mode default otak manusia."1 Sangat sering, orang mengharapkan atau menginginkan tertentu, kemudian mencari data atau bukti untuk mendukung hasil tersebut.
Saat bekerja dengan atau mengevaluasi data dan model, yang dapat berasal dari banyak sumber yang berbeda, tanyakan tentang sumber bias yang potensial. Contoh:
- Siapa yang mendanai model atau studi ini? Apa pasar atau komersialnya aplikasi?
- Jenis insentif apa yang ada untuk orang-orang yang terlibat dalam pengumpulan data?
- Jenis insentif yang ada untuk peneliti yang melatih model atau melakukan penelitian, termasuk publikasi dan masa kerja?
- Siapa yang melisensikan model atau memublikasikan studi, dan apa insentif?
Statistik deskriptif
Rata-rata (jumlah nilai dibagi dengan jumlah), median (nilai tengah, jika nilai diurutkan), dan mode (nilai yang paling sering) sering kali berguna dalam memahami bentuk {i>dataset<i} seseorang. Jika median dan rerata jauh terpisah, misalnya, mungkin ada nilai-nilai yang cukup ekstrem dan asimetris dalam atur.
Rentang, yang merupakan selisih antara nilai tertinggi dan terendah. dan varians, yang merupakan selisih kuadrat rata-rata di antara setiap nilai dan rerata set, juga memberikan informasi yang berguna tentang penyebaran dan bentuk {i>dataset<i}.
Sebelum melatih model pada data Anda, tanyakan juga apakah set data tersebut tidak seimbang dan, jika demikian, apakah ketidakseimbangan itu harus ditangani.
Kemungkinan tidak memungkinkan dan nilai p
Dengan adanya waktu dan kesempatan yang cukup, kejadian menjadi sangat mungkin terjadi. Lihat model Scam broker saham Baltimore untuk satu kemungkinan contoh.
Menurut konsensus ilmiah, hasil dianggap signifikan secara statistik (dan oleh karena itu dapat dipublikasikan) jika nilai p kurang dari 0,05. Artinya, terdapat <5% peluang bahwa hasil yang sama, atau satu hal lainnya, akan terjadi di bawah hipotesis nol—yaitu, sebagai hasil dari kebetulan. Lebih sehari-hari, peneliti hanya dapat mempublikasikan jika ada kemungkinan 1-dari-20 atau kurang hasilnya adalah hasil dari keacakan. Sebaliknya, dan yang lebih mengkhawatirkan, sekitar sekali dalam dua puluh eksperimen, hasil palsu akan tampak signifikan, meskipun tidak, dan sembilan belas hasil lainnya tidak akan dipublikasikan. Dalam makalah tahun 2005, "Mengapa Sebagian Besar Temuan Riset Salah," John Ioannidis menguraikan banyak faktor, mulai dari statistik hingga finansial, sehingga berkontribusi pada publikasi hasil yang palsu.
Misalnya, dengan insentif yang kuat untuk publikasi, peneliti kadang-kadang memalsukan nilai p sekitar 0,05 untuk berada di bawah ambang batas tersebut. Di lain waktu, studi yang dipublikasikan hasil yang secara alami memilih hasil yang tidak terduga dan tidak biasa, yang ternyata tidak dapat direplikasi (dan karenanya kemungkinan hasil dari kebetulan), yang telah menyebabkan pada krisis kepercayaan dalam beberapa {i>field<i}. Hal ini juga menyebabkan terciptanya organisasi yang berdedikasi untuk menguji kemampuan reproduksi.
Di bidang ML, model hanya dianggap termutakhir jika memenuhi atau melampaui tolok ukur evaluasi dari sebagian besar model kompetitif lainnya. Penting mungkin tekanan yang sama akan muncul seputar skor evaluasi model, dapat ditingkatkan secara artifisial oleh kebocoran benchmark.2
Nilai P dapat berguna dalam pemilihan fitur untuk model regresi. ANOVA (Analisis Varians) adalah metode statistik yang membandingkan varians dalam kelompok untuk varians di antara kelompok, menampilkan F-statistik dan p-value untuk setiap fitur. Memilih fitur yang paling signifikan, dengan nilai p terendah, dapat mengurangi jumlah fitur yang harus dipertimbangkan oleh model, tanpa kehilangan banyak daya. Cara ini menghemat komputasi dan menghindari masalah terlalu banyak fitur, yang akan dibahas di bagian selanjutnya. Lihat scikit Panduan pemilihan fitur untuk mengetahui detailnya.
Masalah banyak perbandingan
Masalah batas signifikansi sangat penting dalam situasi di mana beberapa perbandingan dengan hipotesis nol dilakukan pada baik. Ini adalah masalah khusus untuk studi fMRI.
Dalam fMRI, setiap voxel (unit volume) otak diuji secara independen untuk signifikan secara statistik aktivitas, dan disorot jika demikian. Ini mengarah pada sesuatu yang berurutan 100.000 uji signifikansi independen dilakukan sekaligus. Pada p=0,05 ambang batas signifikansi, teori statistik mengharapkan sekitar 5.000 kesalahan positif yang muncul dalam satu fMRI.3
Masalah ini mungkin paling baik diilustrasikan oleh Bennett et al tahun 2009. poster, "Berkorelasi neural dari perspektif interspesies yang mengambil di Atlantic Salmon post-mortem"," yang memenangkan Hadiah Nobel Ig. Para peneliti menunjukkan 15 foto manusia yang berada dalam situasi yang sangat emosional terhadap salmon mati di mesin fMRI, meminta salmon yang mati untuk menentukan emosi apa yang digambarkan manusia yang mereka alami. Mereka menemukan klaster yang signifikan secara statistik voxel aktif di rongga otak salmon dan menyimpulkan, lidah di pipi, bahwa salmon yang mati benar-benar melakukan pengambilan perspektif. Lebih serius lagi, para peneliti menarik perhatian pada masalah beberapa perbandingan di fMRI dan situasi pencitraan serupa, serta kebutuhan mitigasi.
Satu solusi umum dan terperinci adalah untuk menurunkan ambang batas nilai-p yang menunjukkan signifikansi. Atribut inheren Kompromi adalah antara sensitivitas (menangkap semua positif benar) dan kekhususan (mengidentifikasi semua negatif benar). Pembahasan tentang sensitivitas, juga disebut sebagai rasio positif benar, dapat ditemukan di modul Klasifikasi Kursus Singkat Machine Learning.
Mitigasi lainnya adalah mengontrol tingkat kesalahan sesuai keluarga (FWER), yang adalah probabilitas setidaknya satu positif palsu. Yang lain adalah mengendalikan rasio penemuan palsu (FDR), atau proporsi positif palsu (PP) yang diharapkan untuk semua hal positif. Lihat Bukti dalam Tata Kelola dan Politik panduan untuk masalah banyak perbandingan, serta karya Lindquist dan Mejia "Zen dan seni beberapa perbandingan", untuk penjelasan tentang metode ini dan beberapa panduannya. Dalam situasi semacam ini, dengan salmon yang mati, mengendalikan FDR dan FWER menunjukkan bahwa tidak ada voxel yang, faktanya, signifikan secara statistik.
Melatih model ML pada pemindaian dari fMRI dan metode pencitraan lainnya semakin populer baik di bidang diagnosis medis4 maupun dalam merekonstruksi gambar dari aktivitas otak.5 Jika model ini dilatih dengan model data, hal ini dapat mengurangi kemungkinan timbulnya masalah dari perbandingan. Namun, terutama dalam bidang diagnosis, dapat membuat kesimpulan yang tidak akurat pada pemindaian individu baru jika 20% "aktif" voxel memang positif palsu (PP). Perhatikan bahwa klasifikasi fMRI diagnostik model yang dijelaskan dalam Li dan Zhao memiliki akurasi ~70-85%.
Terlalu banyak variabel dalam analisis regresi
Masalah perbandingan berganda juga mencakup analisis regresi berganda. Analisis regresi, atau regresi linear, adalah inti dari banyak model prediktif numerik. Analisis regresi menggunakan salah satu dari beberapa metode, seperti kuadrat terkecil biasa, untuk menemukan koefisien regresi yang paling menggambarkan bagaimana satu variabel mempengaruhi lain. Peneliti dapat bertanya bagaimana dampak usia dan merokok terhadap tingkat kanker paru-paru mewakili setiap faktor sebagai variabel dalam analisis regresi kanker insiden pada perokok dan bukan perokok dari berbagai usia. Model regresi linear bekerja dengan cara yang sama, dan oleh karena itu sangat dapat ditafsirkan dibandingkan dengan jenis model ML lainnya. Menemukan regresi koefisien variabel tersebut akan menggambarkan hubungan linear antara variabel-variabel ini dan tingkat kanker paru-paru.
Anda mungkin ingin memasukkan semua variabel yang mungkin dalam analisis regresi, setidaknya karena tidak menyertakan faktor penting dapat menyebabkan kontribusinya terabaikan. Namun, menambahkan terlalu banyak variabel ke analisis regresi meningkatkan kemungkinan bahwa variabel yang tidak relevan akan muncul secara statistik signifikan. Jika kita menambahkan delapan belas variabel yang lebih tidak relevan ke analisis kita, seperti "film ditonton" dan "milik," sepertinya salah satu variabel yang tidak relevan, secara kebetulan, akan tampak terkait dengan tingkat kanker paru-paru yang lebih tinggi.6
Dalam konteks ML, situasi yang serupa adalah memberikan terlalu banyak fitur ke khusus, yang dapat mengakibatkan overfitting, di antara masalah lainnya.
Inferensi dan pengambilan keputusan
Salah satu cara menghindari beberapa jebakan pemikiran ini adalah memperlakukan statistik dan ML yang berasal dari statistik, sebagai alat untuk mengambil keputusan, daripada menjawab pertanyaan. Ini adalah posisi yang diambil oleh Jerzy Neyman dan Egon Sharpe Pearson.7
Dalam framework ini, data, statistik data, dan turunan, termasuk model ML, paling cocok untuk membuat prediksi probabilistik, menyangkal pernyataan universal, meningkatkan dan berfokus pertanyaan penelitian, dan membantu dalam pengambilan keputusan. Mereka tidak cocok untuk membuat klaim afirmatif tentang kebenaran.
Menurut David Ritter, keputusan didasarkan pada korelasi dari lingkungan jumlah data harus didasarkan pada dua faktor:
- "Keyakinan bahwa korelasi akan selalu muncul kembali di masa depan," yang mana harus didasarkan pada seberapa sering korelasi itu terjadi dalam masa lalu dan pemahaman yang akurat tentang apa yang menyebabkan korelasi itu.
- Risiko dan manfaat tindakan.8
Demikian pula, tidak semua pertanyaan riset cocok untuk AI. Anastassia Fedyk menawarkan dua kriteria untuk masalah yang sesuai dengan AI:
- Masalahnya membutuhkan prediksi, bukan memahami hubungan sebab akibat.
- Data yang dimasukkan ke AI berisi semua yang perlu diketahui tentang masalah; artinya, masalahnya sudah teratasi.9
Referensi
Bennett, Craig M., Abigail A. Baird, Malik B. Miller, dan George L. Wolford. "Berkorelasi neural dari perspektif interspesies yang mengambil dalam proses post-mortem Atlantic Salmon: Argumen untuk koreksi beberapa perbandingan." Neuroimage (2009).
Kairo, Alberto. Cara Diagram Berbohong: Menjadi Lebih Cerdas tentang Informasi Visual. NY: W.W. Norton, 2019.
Davenport, Thomas H. "A Prediktif Analytics Primer". Di Panduan HBR untuk Data Dasar-Dasar Analytics untuk Manajer (Boston: HBR Press, 2018) 81-86.
Ellenberg, Yordania. Bagaimana Agar Tidak Salah: Kekuatan Pemikiran Matematika. NY: Penguin, 2014.
Fedyk, Anastassia. "Dapatkah Machine Learning Menyelesaikan Masalah Bisnis Anda?" Di HBR Panduan Dasar-Dasar Analisis Data untuk Manajer (Boston: HBR Press, 2018) 111-119.
Gallo, Amy. "Penyegaran tentang Signifikansi Statistik." Di Panduan HBR untuk Data Dasar-Dasar Analytics untuk Manajer (Boston: HBR Press, 2018) 121-129.
Huff, Darrell. Cara Berbohong dengan Statistik. NY: W.W. Norton, 1954.
Ioannidis, John P.A. "Mengapa Temuan Riset yang Sebagian Besar Dipublikasikan Salah.". Di PLoS Med 2 no. 8: e124.
Jaka, Ben. Menghindari Kesalahan Data. Hoboken, NJ: Wiley, 2020.
Li, Jiangxue, dan Peize Zhao. "Aplikasi deep learning di fMRI – Tugas Peninjauan" ICBBB 2023 (Tokyo, Jepang, 13–16 Januari 2023): 75-80. https://doi.org/10.1145/3586139.3586150
Lindquist, Martin A., dan Amanda Mejia. "Zen dan seni berbagai perbandingan." Kedokteran Psikosomatik 77 no. 2 (Feb-Mar 2015): 114–125. DOI: 10.1097/PSY.0000000000000148.
Ritter, Daffa. "Kapan harus Bertindak terkait Korelasi, dan Kapan Tidak Harus." Di Panduan HBR untuk Dasar-Dasar Analisis Data untuk Manajer (Boston: HBR Press, 2018) 103-109.
Tagaki, Yu dan Shinji Nishimoto. "Rekonstruksi gambar beresolusi tinggi dengan model difusi laten dari aktivitas otak manusia." Konferensi IEEE/CVF 2023 tentang Visi Komputer dan Pengenalan Pola (Vancouver, BC, Kanada, 2023): 14453-14463. DOI: 10.1109/CVPR52729.2023.01389.
Roda, Charles. Statistik Polos: Menghapus Rasa Takut dari Data. NY: W.W. Norton, 2013
Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen, dan Jiawei Han. "Jangan Jadikan LLM Anda sebagai Penipu Tolok Ukur Evaluasi." arXiv:2311.01964 cs.CL.