Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Düşünme tuzakları

İnsanlar insan doğası gereği bilişsel ön yargılara tabidir: rasyonelleştirme ve doğrulama yanlılığı. Alberto Cairo, "Rationalization , insan beyninin varsayılan modu."¹ İnsanlar çoğunlukla belirli bir ve ardından bu sonucu destekleyecek veri veya kanıt arayın.

Pek çok farklı kaynaktan gelen veri ve modellerle çalışırken ya da değerlendirirken ön yargıların olup olmadığını sorun. Örneğin:

Bu modele veya çalışmaya kim fon sağlıyor? Pazar veya ticari amaçlı nedir? uygulayacaksınız?
Veri toplamayla ilgilenen kişiler için ne tür teşvikler sunuluyor?
Modeli eğiten araştırmacılar için ne gibi teşvikler vardır? araştırmayı yürütmekle mi?
Modelin lisansını veren veya çalışmayı yayınlayanlar kimler ve bunların ne olduğu teşvik etmek istiyorum.

Açıklayıcı istatistikler

Ortalama (değerlerin toplamının sayıya göre bölümü), orta değer (orta değer; değerleri sıralanır) ve mode (en sık değer) genellikle veri kümesinin şeklini anlamaya çalışmak. Ortanca değer ve ortalama değer uzaksa birbirlerinden oldukça uzak ve asimetrik değerler ayarlandı.

En yüksek ve en düşük değerler arasındaki fark olan aralık, ve ortalamanın karesi fark olan varyans ve grubun ortalaması arasında performans metriklerine ilişkin faydalı bilgiler de dağılımını ve şeklini değiştirmeyin.

Verileriniz üzerinde bir modeli eğitmeden önce, veri kümesinin dengesiz ve mümkünse bu dengesizliğin giderilip giderilmeyeceğini belirler.

Olasılıksızlıklar ve p değerleri

Yeterli zaman ve yeterli şans verilirse, bir kullanıcının olasılığı çok yüksek olan bir olaydır. Teorik bilgileri inceleyin Baltimore borsa komisyoncusu dolandırıcılığı tek bir örnek verelim.

Bilimsel fikir birliğiyle bir sonuç, istatistiksel olarak anlamlı kabul edilir (ve bu nedenle, p değeri 0,05'ten küçük olduğunda yayınlanabilir). Bunun anlamı şudur: aynı sonucun veya bir aşırı uçta gitme ihtimalinin% 5’ten az olması boş hipotez -yani şans sonucu. Daha günlük konuşmada yalnızca 20'de 1 veya daha az olma ihtimali varsa rastlantısallığın sonucudur. Alternatif olarak, daha doğrusu yaklaşık yirmi denemede bir kez bulunduğunda, sahte bir sonuç önemli olsa da diğer on dokuz sonuç ise aynı olmayacaktır yayınlanmış. 2005 yılında yayınlanan bir makalede "Why Most Research Findings Are False" (Araştırma Bulgularının Çoğu Neden Yanlış)? John Ioannidis, istatistikten araştırmaya kadar birçok faktörden yanı sıra sahte sonuçların yayınlanmasına katkıda bulunur.

Örneğin, veri yayınlamanın güçlü teşvikleri göz önüne alındığında, araştırmacılar bazen 0,05 civarında olması gerekir. Diğer zamanlar, yayınlanan çalışma beklenmedik ve olağan dışı sonuçlar için doğal olarak seçim yapan, tekrarlanmaması (ve dolayısıyla da şans eseri olması anlamına gelir.) güven krizine neden olabilir. birden çok alanda kullanabilirsiniz. Aynı zamanda test etmeye adanmış kuruluşlardır.

Makine öğrenimi alanında modeller yalnızca diğer rekabet modellerinin çoğunun değerlendirme karşılaştırmalarını aştığını gösterir. İnsanların model değerlendirme puanları konusunda da benzer baskıların kısmı nedeniyle yapay olarak artırılabilir.²

P değerleri, regresyon modelleri için özellik seçiminde yararlı olabilir. ANOVA (Varyans Analizi), farklı değerlendirmeleri gruplar arasındaki varyansa göre varyans olarak Her özellik için F istatistiği ve p değeri. En düşük p değerlerine sahip en önemli özellikleri seçmek, tahmine dayalı pek çok şey kaybetmeden modelin göz önünde bulundurması gereken özellik sayısı güç. Böylece hem bilgi işlemden tasarruf edebilir hem de çok fazla özelliğin kullanılması sorununu önler ele alacağız. Scikit'in Ayrıntılı bilgi için özellik seçme rehberine bakın.

Çoklu karşılaştırma problemi

Önem eşiği sorunu özellikle sıfır hipotezi için birden fazla karşılaştırma aynı anda yapılmaktadır. gerekir. Bu, fMRI çalışmalarıyla ilgili özel bir sorundur.

fMRI'de her bir voksel (hacim birimi) istatistiksel açıdan anlamlı olup olmadıklarının belirlenmesi için (varsa), vurgulu olarak gösterilir. Bu da empatiyle yaklaşmanın Aynı anda 100.000 bağımsız anlamlılık testi yürütülür. p=0,05 değerinde anlamlılık eşiği; istatistiksel teoride yaklaşık 5.000 yanlış tek bir fMRI'de görünmesi gerekir.³

Sorun muhtemelen en iyi şekilde 2009 yılında, Bennett ve diğerleri tarafından poster, "Olay sonrası Atlantik somonunu analiz eden türler arası bakış açısıyla nöral korelasyonlar," Bu ödül, Ig Nobel Ödülü. Araştırmacılar 15 fotoğraftan oluşan fMRI makinesinde ölü bir somona çevirirken, çok duygusal durumlarda ölü somondan, resmedildiği insanın duygularını öğrenmesini istemek deneyimler yaşanıyor. Bir grup ekip üyesine göre, dilindeki aktif voksellerin sayısı da ölü somonun gerçekten de bakış açısını anlamaya destek olduğu söylenebilir. Daha ciddiye alırım. çoklu karşılaştırma sorununa dikkat çekmişti. fMRI ve benzer görüntüleme durumları ve bunların etkisini azaltma ihtiyacı.

Bariz, kaba taneli çözümü anlamı gösteren p eşik değerini düşürmektir. Doğal hassasiyet (tüm gerçek pozitifleri yakalamak) ile belirlilik arasında bir denge vardır (tüm doğru negatifleri belirleme). Hassasiyet üzerine konuşulan doğru pozitif oranı, Sınıflandırma modülü'nde bulabilirsiniz. öğrenmeye devam edeceğiz.

Diğer bir çözüm de aile genelinde hata oranını (FWER) kontrol etmektir. Bu değer, en az bir yanlış pozitif olasılığıdır. Bir diğeri ise yanlış keşif oranı (FDR) veya beklenen yanlış oranı için ve tüm pozitifler olarak düşünülebilir. Yönetişim ve Politikadaki Kanıtlara Göz Atın çoklu karşılaştırma problemi için rehberi, Lindquist ve Mejia's "Zen ve birden fazla karşılaştırma sanatı," 'ni inceleyin. Durum FDR ve FWER kontrollerinde, voksellerin ölmediği anlaşıldı. istatistiksel açıdan önemli.

ML modellerini fMRI ve diğer görüntüleme yöntemlerinden gelen taramalar üzerinde eğitmek giderek daha fazla önem kazanıyor hem tıbbi teşhis alanında⁴ hem de görüntülerin yeniden oluşturulmasında popüler sağlayabilir.⁵ Bu modeller yeterince büyük bir Bu işlem, birden fazla kaynakta sorun yaşama olasılığını azaltabilir bir problemdir. Ancak, özellikle teşhis alanında model, %20'si "etkin" olduğunda yeni tek tek taramalarda yanlış çıkarımlar yapabilir vokseller aslında yanlış pozitif. Teşhis fMRI sınıflandırmasının modellerin doğruluk oranı yaklaşık% 70-85'tir.

Regresyon analizinde çok fazla değişken var

Çoklu karşılaştırma problemi, çoklu regresyon analizini de kapsar. Regresyon analizi veya doğrusal regresyon, sayısal tahmine dayalı birçok modelin temelini oluşturur. Regresyon analizinde, normal en küçük kareler gibi birkaç yöntemden biri kullanılır. bir değişkenin nasıl etkilediğini en iyi açıklayan regresyon katsayısını bulmak için başka bir tane. Araştırmacılar yaş ve sigaranın akciğer kanseri oranlarını nasıl etkilediğini sorup kanserin regresyon analizinde her faktörü değişken olarak temsil eden görülme sıklığı. Doğrusal regresyon modeli aynı şekilde çalışır ve bu nedenle yorumlanabilir bir katalog sunar. Regresyonu bulma katsayıları, iki faktör arasındaki doğrusal ilişkileri akciğer kanseri oranlarına göre belirleniyor.

Bir regresyon analizine tüm olası değişkenleri dahil etmek cazip gelebilir, Kritik bir faktörün dahil edilmemesi, dönüşüme katkı sağlamasına gözden kaçmış oluyor. Ancak regresyon analizine çok fazla değişken eklemek bir değişkenin istatistiksel açıdan anlamlı görünme olasılığını artırır çok önemlidir. Analizimize on sekiz tane daha alakasız değişken eklersek, "izlenen filmler" ve "köpek sahibi" gibi onlardan biri muhtemelen rastgele bir şekilde, birbiriyle alakasız değişkenlerin akciğer kanseri oranlarında artış yaşandı.⁶

Makine öğrenimi bağlamında bu analog durum, modelin performansı başka problemler arasındadır.

Çıkarımlar ve karar verme

Bu düşünme tuzaklarından bazılarını atlatmanın bir yolu da istatistik ve makine öğrenimini kullanmaktır. ve karar verme aracı olarak istatistiklerden türetilen model, cevaplamaya çalışın. Bu pozisyonundaki yer.⁷

Bu çerçevede veri, veri istatistikleri ve makine öğrenimi modelleri dahil, olasılıksal tahminlerde bulunmak için kullanılır, evrensel ifadeleri çürütme, iyileştirme ve odaklanma ve karar alma sürecine yardımcı olmaktır. Pek uygun değiller öne çıkarabilirsiniz.

David Ritter'a göre kararlar, çok büyük gruplardan bile veri miktarı iki faktöre dayanmalıdır:

"korelasyonun gelecekte güvenilir bir şekilde tekrarlanacağına dair güven," hangi söz konusu korelasyonun deneme süresinde ne sıklıkta ve bu korelasyona neyin sebep olduğunu doğru anlamanız gerekir.
Harekete geçmenin riskleri ve getirileri.⁸

Benzer şekilde, tüm araştırma soruları yapay zeka için uygun olmayabilir. Anastasya Fedyk, yapay zekaya uygun problemler için iki kriter sunar:

Sorun, nedensel ilişkileri anlamayı değil, öngörüde bulunmayı gerektiriyor.
Yapay zekaya aktarılan veriler, yapay zeka hakkında bilinmesi gereken her şeyi sorun; Yani sorun bağımsızdır.⁹

Referanslar

Bennett, Craig M. Ali A. Baird, Michael B. Miller ve George L. Wolford'a gidin. "Olay sonrası süreci alınan türler arası bakış açısıyla nöral korelasyon Atlantik Somonu: Birden çok karşılaştırma düzeltmesi için bir argüman." Neuroimage (2009).

Kahire, Alberto. Grafikler Nasıl Yalan: Görsel Bilgiler Hakkında Daha Akıllı Olma. New York: W.W. Norton, 2019.

Davenport, Thomas H. "A Predictionive Analytics Primer." (Tahmine Dayalı Analiz Primer). HBR Veri Kılavuzu'nda Yöneticiler İçin Analytics ile İlgili Temel Bilgiler (Boston: HBR Press, 2018) 81-86.

Ellenberg, Ürdün. How Not To Be Right: The Power of matematikal Düşünme. NY: Penguen, 2014.

Fedyk, Anastassia. "Makine Öğrenimi İş Sorununuzu Çözebilir mi?" HBR içinde Yöneticiler için Veri Analiziyle İlgili Temel Bilgiler Kılavuzu (Boston: HBR Press, 2018) 111-119.

Galo, Ayşe. "A Refresher on Statistical Anlamlı". HBR Veri Kılavuzu'nda Yöneticiler için Analytics ile İlgili Temel Bilgiler (Boston: HBR Press, 2018) 121-129.

Hımm, Darrell. İstatistikler nasıl yatar? NY: W.W. Norton, 1954.

İoannidis, John P.A. "Neden Yayınlanan Araştırma Bulguları Yanlış?". PLoS Med 2 no. 8: e124.

Cem, Cem. Veri Tuzaklarından Kaçınma. Hoboken, NJ: Wiley, 2020.

Li, Jiangxue ve Peize Zhao. "fMRI'de derin öğrenme uygulamaları - Bir İnceleme Çalışması" ICBBB 2023 (Tokyo, Japonya, 13-16 Ocak 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. ve Amanda Mejia. "Zen ve birden fazla karşılaştırma sanatı." Psikosomatik Tıp 77 no. 2 (Şubat-Mart 2015): 114-125. doi: 10.1097/PSY.0000000000000148.

Rüzgar, Davut. "Ne zaman bir bağıntıya göre hareket etmeli ve ne zaman yapılmalı." HBR Kılavuzu'nda Data Analytics Basics for Managers (Yöneticiler için Veri Analiziyle İlgili Temel Bilgiler) (Boston: HBR Press, 2018) 103-109.

Tagaki, Yu ve Shinji Nishimoto. "İnsan beyni etkinliğinden elde edilen gizli difüzyon modelleriyle yüksek çözünürlüklü görüntü rekonstrüksiyonu." 2023 IEEE/CVF Konferansı Bilgisayar Görüşü ve Örüntü Tanıma (Vancouver, BC, Kanada, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

Tekin, Çağrı. Açık İstatistikler: Korkuyu Verilerden Çıkarın. New York: W.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen ve Jiawei Han. "LLM'nizi Değerlendirme Karşılaştırması Ustası Yapmayın." arXiv:2311.01964 cs.CL

Kahire 182. ↩
Zhou ve diğerleri ↩
Lindquist ve Mejia. ↩
Li ve Zhao 77-78. ↩
Tagaki ve Nishimoto. ↩
Wheelan 221. ↩
Ellenberg 159. ↩
Ritter 104. ↩
Fedyk 113. ↩

Veri kalitesi ve yorumlama

Analiz tuzakları