Düşünme tuzakları

İnsanlar insan olduğundan dolayı bilişsel ön yargılara tabidir. Şunlar da dahildir: rasyonelleştirme ve onaylama yanlılığı. Alberto Cairo, "Rasyonelleştirme" diyor , insan beyninin varsayılan modu."1 İnsanlar çoğunlukla belirli bir ve ardından bu sonucu destekleyecek veri veya kanıt arayın.

Pek çok farklı kaynaktan gelen veri ve modellerle çalışırken ya da değerlendirirken farklı kaynaklar varsa, önyargıların olası kaynaklarını sorun. Örneğin:

  • Bu modele veya çalışmaya kim fon sağlıyor? Pazar mı, ticari mi? uygulayacaksınız?
  • Veri toplamayla ilgilenen kişiler için ne tür teşvikler sunuluyor?
  • Modeli eğiten araştırmacılar için ne gibi teşvikler vardır? araştırmayı yürütmekle mi?
  • Modelin lisansını veren veya çalışmayı yayınlayanlar kimler ve bunların ne olduğu teşvikleri var mı?

Açıklayıcı istatistikler

Ortalama (değerlerin toplamının sayıya göre bölümü), orta değer (orta değer; değerleri sıralanır) ve mode (en sık değer) genellikle veri kümesinin şeklini anlamaya çalışmak. Ortanca değer ve ortalama değer uzaksa birbirlerinden oldukça uzak ve asimetrik değerler ayarlandı.

En yüksek ve en düşük değerler arasındaki fark olan aralık, ve ortalamanın karesi fark olan varyans ve grubun ortalaması arasında performans metriklerine ilişkin faydalı bilgiler de dağılımını ve şeklini değiştirmeyin.

Verileriniz üzerinde bir modeli eğitmeden önce, veri kümesinin dengesiz ve mümkünse bu dengesizliğin giderilip giderilmeyeceğini belirler.

Olasılıksızlıklar ve p değerleri

Yeterli zaman ve yeterli şans verilirse, bir kullanıcının olasılığı çok yüksek olan bir olaydır. Teorik konulara bakın Baltimore borsa komisyoncusu dolandırıcılığı tek bir örnek verelim.

Bilimsel fikir birliğiyle bir sonuç, istatistiksel olarak anlamlı kabul edilir (ve bu nedenle, p değeri 0,05'ten küçük olduğunda yayınlanabilir). Bunun anlamı şudur: aynı sonucun veya bir aşırı uçta gitme ihtimalinin% 5’ten az olması boş hipotez -yani şans sonucu. Daha günlük konuşmada yalnızca 20'de 1 veya daha az olma ihtimali varsa rastlantısallığın sonucudur. Ancak daha doğru bir ifadeyle, yaklaşık yirmi denemede bir kez bulunduğunda, sahte bir sonuç önemli olsa da diğer on dokuz sonuç ise aynı olmayacaktır yayınlanmış. 2005 yılında yayınlanan bir makalede "Neden Çoğu Araştırma Bulgusu Yanlış?" diyor John Ioannidis, istatistikselden araştırmaya kadar birçok faktörden yanı sıra sahte sonuçların yayınlanmasına katkıda bulunur.

Örneğin, veri yayınlamanın güçlü teşvikleri göz önüne alındığında, araştırmacılar bazen 0,05 civarında olması gerekir. Diğer zamanlar, yayınlanan çalışma beklenmedik ve olağan dışı sonuçlar için doğal olarak seçim yapan, tekrarlanmaması (ve dolayısıyla da şans eseri çalışması) nedeniyle güven krizine neden olabilir. birden çok alanda kullanabilirsiniz. Aynı zamanda test etmeye adanmış kuruluşlardır.

Makine öğrenimi alanında modeller yalnızca diğer rekabet modellerinin çoğunun değerlendirme karşılaştırmalarını aştığını gösterir. İnsanların model değerlendirme puanları konusunda da benzer baskıların kısmı nedeniyle yapay olarak artırılabilir.2

P değerleri, regresyon modelleri için özellik seçiminde yararlı olabilir. ANOVA (Varyans Analizi), farklı değerlendirmeleri gruplar arasındaki varyansa göre varyans olarak Her özellik için F istatistiği ve p değeri. En düşük p değerlerine sahip en önemli özellikleri seçmek, tahmine dayalı pek çok şey kaybetmeden modelin göz önünde bulundurması gereken özellik sayısı güç. Böylece hem bilgi işlemden tasarruf edebilir hem de çok fazla özelliğin kullanılması sorununu önler ele alacağız. Scikit'in Ayrıntılı bilgi için özellik seçme rehberine bakın.

Çoklu karşılaştırma problemi

Önem eşiği sorunu özellikle sıfır hipotezi için birden fazla karşılaştırma aynı anda yapılmaktadır. gerekir. Bu, fMRI çalışmalarıyla ilgili özel bir sorundur.

fMRI'de her bir voksel (hacim birimi) istatistiksel açıdan anlamlı olup olmadıklarının belirlenmesi için vurgulu kullanabilirsiniz. Bu da empatiyle yaklaşmanın Aynı anda 100.000 bağımsız anlamlılık testi yürütülür. p=0,05 değerinde anlamlılık eşiği; istatistiksel teoride yaklaşık 5.000 yanlış tek bir fMRI'de görünmesi gerekir.3

Sorun muhtemelen en iyi şekilde 2009 yılında, Bennett ve diğerleri tarafından poster, "Olay sonrası Atlantik somonunu analiz eden türler arası bakış açısıyla nöral korelasyonlar," Bu ödül, Ig Nobel Ödülü. Araştırmacılar 15 fotoğraftan oluşan fMRI makinesinde ölü bir somona çevirirken, çok duygusal durumlarda ölü somondan, resmedildiği insanın duygularını öğrenmesini istemek deneyimler yaşanıyor. Bir grup ekip üyesine göre, dilindeki aktif voksellerin sayısı da ölü somonun gerçekten de bakış açısını anlamaya destek olduğu söylenebilir. Daha ciddiye alırım. çoklu karşılaştırma sorununa dikkat çekmişti. fMRI ve benzer görüntüleme durumları ve bunların etkisini azaltma ihtiyacı.

Bariz, kaba taneli çözümü anlamı gösteren p eşik değerini düşürmektir. Doğal hassasiyet (tüm gerçek pozitifleri yakalamak) ile belirlilik arasında bir denge vardır (tüm doğru negatifleri belirleme). Hassasiyet üzerine konuşulan doğru pozitif oranı, Sınıflandırma modülü'nde bulabilirsiniz. öğrenmeye devam edeceğiz.

Diğer bir çözüm, aile genelinde hata oranını (FWER) kontrol etmektir. en az bir yanlış pozitif olasılığıdır. Bir diğeri ise yanlış keşif oranı (FDR) veya beklenen yanlış pozitif oranı olumlu sonuçlar doğurabilir. Yönetişim ve Politikadaki Kanıtlara Göz Atın çoklu karşılaştırma problemi için rehberi, Lindquist ve Mejia's "Zen ve birden fazla karşılaştırma sanatı," 'ni inceleyin. Durum FDR ve FWER kontrollerinde, voksellerin ölmediği anlaşıldı. istatistiksel açıdan önemli.

ML modellerini fMRI ve diğer görüntüleme yöntemlerinden gelen taramalar üzerinde eğitmek giderek daha fazla artıyor hem tıbbi teşhis alanında4 hem de görüntülerin yeniden oluşturulmasında popüler sağlayabilir.5 Bu modeller yeterince büyük bir Bu işlem, birden fazla kaynakta sorun yaşama olasılığını azaltabilir bir problemdir. Ancak, özellikle teşhis alanında model, %20'si "etkin" olduğunda yeni tek tek taramalarda yanlış çıkarımlar yapabilir vokseller gerçekten yanlış pozitiftir. Teşhis fMRI sınıflandırmasının Li ve Zhao'da açıklanan modellerin doğruluk oranı yaklaşık% 70-85'tir.

Regresyon analizinde çok fazla değişken var

Çoklu karşılaştırma problemi, çoklu regresyon analizini de kapsar. Regresyon analizi veya doğrusal regresyon, sayısal tahmine dayalı birçok modelin temelini oluşturur. Regresyon analizinde, normal en küçük kareler gibi birkaç yöntemden biri kullanılır. bir değişkenin nasıl etkilediğini en iyi açıklayan regresyon katsayısını bulmak için başka bir tane. Araştırmacılar yaş ve sigaranın akciğer kanseri oranlarını nasıl etkilediğini sorup kanserin regresyon analizinde her faktörü değişken olarak temsil eden görülme sıklığı. Doğrusal regresyon modeli aynı şekilde çalışır ve bu nedenle yorumlanabilir bir katalog sunar. Regresyonu bulma katsayıları, iki faktör arasındaki doğrusal ilişkileri akciğer kanseri oranlarına göre belirleniyor.

Regresyon analizine, tüm olası değişkenleri dahil etmek Kritik bir faktörün dahil edilmemesi, dönüşüme katkı sağlamasına gözden kaçırılır. Ancak regresyon analizine çok fazla değişken eklemek bir değişkenin istatistiksel açıdan anlamlı görünme olasılığını artırır çok önemlidir. Analizimize on sekiz tane daha alakasız değişken eklersek, "izlenen filmler" ve "köpek sahibi" gibi onlardan biri muhtemelen rastgele bir şekilde, alakasız değişkenlerin, akciğer kanseri oranlarında artış yaşandı.6

Makine öğrenimi bağlamında bu analog durum, modelin performansı başka problemler arasındadır.

Çıkarımlar ve karar verme

Bu düşünme tuzaklarından bazılarını atlatmanın bir yolu da istatistik ve makine öğrenimini ele almaktır. ve karar verme aracı olarak istatistiklerden türetilen model, cevaplamaya çalışın. Bu pozisyonundaki yer.7

Bu çerçevede veri, veri istatistikleri ve makine öğrenimi modelleri dahil, olasılıksal tahminlerde bulunmak için kullanılır, evrensel ifadeleri çürütme, iyileştirme ve odaklanma ve karar alma sürecine yardımcı olmaktır. Pek uygun değiller öne çıkarabilirsiniz.

David Ritter'a göre, kararların verilmesinde en büyük veri miktarı iki faktöre dayanmalıdır:

  • "korelasyonun gelecekte güvenilir bir şekilde tekrarlanacağına dair güven," hangi söz konusu korelasyonun deneme süresinde ne sıklıkta ve bu korelasyona neyin neden olduğunu doğru anlamanız gerekir.
  • Harekete geçmenin riskleri ve getirileri.8

Benzer şekilde, tüm araştırma soruları yapay zeka için uygun olmayabilir. Anastasya Fedyk, yapay zekaya uygun problemler için iki kriter sunar:

  • Sorun, nedensel ilişkileri anlamayı değil, öngörüde bulunmayı gerektiriyor.
  • Yapay zekaya aktarılan veriler, yapay zeka hakkında bilinmesi gereken her şeyi sorun; Yani sorun bağımsızdır.9

Referanslar

Bennett, Craig M. Ali A. Baird, Michael B. Miller ve George L. Wolford'a gidin. "Olay sonrası süreci alınan türler arası bakış açısıyla nöral korelasyon Atlantik Somonu: Birden çok karşılaştırma düzeltmesi için bir argüman." Neuroimage (2009).

Kahire, Alberto. Grafikler Nasıl Yalan: Görsel Bilgiler Hakkında Daha Akıllı Olma. New York: B.B. Norton, 2019.

Davenport, Thomas H. "A Predictionive Analytics Primer." (Tahmine Dayalı Analiz Primer). HBR Veri Kılavuzu'nda Yöneticiler İçin Analytics ile İlgili Temel Bilgiler (Boston: HBR Press, 2018) 81-86.

Ellenberg, Ürdün. How Not To Be Right: The Power of matematikal Düşünme. NY: Penguen, 2014.

Fedyk, Anastassia. "Makine Öğrenimi İş Sorununuzu Çözebilir mi?" HBR içinde Yöneticiler için Veri Analiziyle İlgili Temel Bilgiler Kılavuzu (Boston: HBR Press, 2018) 111-119.

Galo, Ayşe. "A Refresher on Statistical Anlamlı". HBR Veri Kılavuzu'nda Yöneticiler için Analytics ile İlgili Temel Bilgiler (Boston: HBR Press, 2018) 121-129.

Hımm, Darrell. İstatistikler nasıl yatar? NY: W.W. Norton, 1954.

İoannidis, John P.A. "Neden Yayınlanan Araştırma Bulgularının Çoğu Yanlış?". PLoS Med 2 no. 8: e124.

Cem, Cem. Veri Tuzaklarından Kaçınma. Hoboken, NJ: Wiley, 2020.

Li, Jiangxue ve Peize Zhao. "fMRI'de derin öğrenme uygulamaları - Bir İnceleme Çalışması" ICBBB 2023 (Tokyo, Japonya, 13-16 Ocak 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. ve Amanda Mejia. "Zen ve birden fazla karşılaştırma sanatı." Psikosomatik Tıp 77 no. 2 (Şubat-Mart 2015): 114-125. doi: 10.1097/PSY.0000000000000148.

Rüzgar, Davut. "Ne zaman bir bağıntıya göre hareket etmeli ve ne zaman yapılmalı." HBR Kılavuzu'nda Data Analytics Basics for Managers (Yöneticiler için Veri Analiziyle İlgili Temel Bilgiler) (Boston: HBR Press, 2018) 103-109.

Tagaki, Yu ve Shinji Nishimoto. "İnsan beyni etkinliğinden elde edilen gizli difüzyon modelleriyle yüksek çözünürlüklü görüntü rekonstrüksiyonu." 2023 IEEE/CVF Konferansı Bilgisayar Görüşü ve Örüntü Tanıma (Vancouver, BC, Kanada, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

Tekin, Çağrı. Açık İstatistikler: Korkuyu Verilerden Çıkarın. New York: B.B. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen ve Jiawei Han. "LLM'nizi Değerlendirme Karşılaştırması Amaçlı Hileli Yapmayın." arXiv:2311.01964 cs.CL


  1. Kahire 182. 

  2. Zhou ve diğerleri

  3. Lindquist ve Mejia. 

  4. Li ve Zhao 77-78. 

  5. Tagaki ve Nishimoto. 

  6. Wheelan 221. 

  7. Ellenberg 159. 

  8. Ritter 104. 

  9. Fedyk 113.