"Tüm modeller yanlış ama bazıları kullanışlı." - George Box, 1978
Güçlü, istatistiksel tekniklerin kendine özgü sınırlamaları vardır. Anlama Bu sınırlamalar, araştırmacının gaflardan ve yanlış iddialardan kaçınmasına yardımcı olabilir. Örneğin: BF Skinner'ın Shakespeare'in aliterasyonu yalnızca tahmin etmesi için kullanılır. (Skinner'ın araştırması underpowered.1)
Belirsizlik ve hata çubukları
Analizinizde belirsizliği belirtmeniz önemlidir. Kendisi kadar önemli başka kişilerin analizlerindeki belirsizliği nicel olarak ölçmemize yardımcı olur. Gösterilen veri noktaları bir grafikte bir trend çizmek, ancak çakışan hata çubuklarının bulunması, sağlayabilirsiniz. Belirsizlik çok yüksek olabileceği için belirli bir çalışmadan veya istatistiksel testten Bir araştırmada grup düzeyinde doğruluk gerektirir, +/- 500 m belirsizliğe sahip jeo-uzamsal veri kümesi çok fazla belirsizlik bulunduğu anlamına gelir.
Belirsizlik seviyeleri de karar verme sürecinde faydalı olabilir daha fazla bilgi edineceksiniz. %20 belirsizlikle belirli bir su arıtma işlemini destekleyen veriler elde edilen suyun kullanılması önerilebilir. programın sürekli olarak izlenmesiyle desteklenmelidir.
Bayes nöral ağları tek yerine değerlerin dağılımlarını tahmin ederek belirsizliği ölçebilir değerler.
Alaka düzeyinin düşük olması
Giriş bölümünde de belirttiğimiz gibi, verileri ve gerçek doğruları kullanır. Akıllı makine öğrenimi uygulayıcısı, makine öğreniminin soruyla ilgili olması gerekir.
Huff, beyaz Amerikalıların akıl almaz bir kamuoyu araştırmasına göre Siyahi Amerikalıların ne kadar kolay olduğu sorusunun yanıtları deneyim düzeyleriyle doğrudan ve ters yönde anlayabiliyorum. Irksal çıkarım arttıkça, beklenen ekonomik fırsatlara yönelik tepkilerin giderek arttığını emin olun. Bu durum, yanlış bir ilerlemenin işareti olarak anlaşılabilirdi. Ancak çalışma, satın alma işlemi gerçekleştiren o zamanlar siyahi Amerikalıların erişebildiği ekonomik fırsatlara sahipti. iş piyasasının gerçekliği hakkında çıkarımlarda bulunmaya uygundur. görüşlerine yer verebilirsiniz. Toplanan veriler iş piyasasının durumuyla alakalı değildi.2
Yukarıda açıklanan şekilde anket verileri üzerine bir model eğitebilirsiniz. Bu modelde çıktısı aslında fırsat yerine iyimserliği ölçer. Ama çünkü tahmini fırsatların gerçek fırsatlarla alakasız olduğunu unutmayın. modellerin gerçek fırsatları tahmin ettiğini iddia ederseniz, modelin tahminlerini yanlış beyan etmek.
Dezavantajlar
Çarpıcı değişken, kafa karıştırıcı veya kofaktör bir değişkendir araştırmalarda bulunmayan üzerinde etkisi olan değişkenleri etkiler ve sonuçları çarpıtabilir. Örneğin, bir girdi için ölüm oranlarını tahmin eden bir makine öğrenimi modelini düşünün. ülke geneline uygun. Ortanca değerin yaş bir özellik değildir. Ayrıca bazı ülkelerde daha eski bir e-posta adresinin daha yüksek olduğunu tespit ettik. Ortalama yaşın bu model hatalı ölüm oranlarını tahmin edebilir.
Amerika Birleşik Devletleri'nde ırk çoğu zaman sosyoekonomik ve sosyoekonomik sınıf değil, yalnızca ırk türü olmak üzere, ölüm oranı ile birlikte kaydedilir. Sağlık hizmetlerine erişim, beslenme, tehlikeli işler ve güvenli barınmanın, ırka kıyasla ölüm oranları üzerinde daha fazla ancak veri kümelerine dahil edilmediği için ihmal edilir.3 Bu karmaşaları kontrol etmek de faydalı modeller oluşturmak açısından kritik öneme sahiptir. ve anlamlı ve doğru sonuçlar çıkartmayı öğreteceğim.
Bir model ırkı içeren ancak içermeyen mevcut ölüm verileri kullanılarak eğitilirse sınıfa göre, sınıf daha güçlü olsa bile ırka göre ölüm oranını tahmin edebilir tahmin aracı olarak kullanılabilir. Bu da ekip arkadaşlarınızın oynadığı kişilere dair nedensellik ve hasta ölümleriyle ilgili yanlış tahminler. Makine öğrenimi uzmanları kendi verilerinde karmaşa olup olmadığını ve ne anlam ifade ettiğini değişkenleri eksik olabilir.
1985 yılında Hemşireler Harvard'dan gözleme dayalı kohort çalışması olan Health Study Tıp Fakültesi ve Harvard Kamu Sağlığı Okulu, kohort üyelerinin östrojen replasman tedavisi alındığında kalp krizi görülme oranı daha düşüktü hiç grup üyesi olmayan üyelere kıyasla çok önemlidir. Bu nedenle doktorlar, hastalarına östrojen yıllar boyunca menopoz ve postmenopoz hastalarına yeniden 2002'de uzun süreli östrojen tedavisinin oluşturduğu sağlık riskleri belirlendi. Uygulama menopoz sonrası kadınlara östrojen reçetesinin verilmesini durdurmuş, ancak tahminen on binlerce erken ölüme neden oluyor.
Bu ilişkilendirmeye birden fazla karışıklık neden olmuş olabilir. Epidemiyoloji uzmanları bulundu hormon replasman tedavisi gören kadınların, bu tedaviyi kullanmayan kadınlara daha güçsüz, daha eğitimli, daha zengin, sağlıklarına karşı daha bilinçli, ve egzersiz yapma ihtimali artar. Farklı çalışmalarda, eğitim ve servet kalp hastalığı riskini azalttığı kanıtlanmıştır. Bu sonuçlar, projenin östrojen tedavisi ile kalp krizi arasındaki ilişkiyi gösteriyor.4
Negatif sayılı yüzdeler
Negatif sayılar olduğunda yüzdeleri kullanmaktan kaçının,5 önemli kazanımların ve kayıpların belirsizleştirilmesi gerekir. Basit bir şema izlerseniz restoran sektöründe 2 milyon işe sahip. Sektör 1 2020'nin Mart ayı sonlarında bu işlerde 10 milyon dolarlık bir değişiklik yok ay ve Şubat 2021'in başında, yıldan yıla 900.000 iş artışı elde etti. karşılaştırıldığında, restoran işlerinde yalnızca% 5'lik bir kayıp yaşanacağına işaret edecek. Başka değişiklik olmadığı varsayıldığında, Şubat ayının sonunda yıllık karşılaştırma yapılır. 2022 yılında restoran işlerinde% 90'lık bir artış öngörülüyor. Bu oran oldukça gerçeğin resmi
Uygun şekilde normalleştirilmiş gerçek sayıları tercih edin. Bkz. Sayılarla Çalışma Cata .
Post-hoc yanılgıları ve kullanılamayan korelasyonlar
Post-hoc yanılgı, A olayının ardından A etkinliği gerçekleştiği için A olayı, B olayına neden olmuştur. Daha basitçe ifade etmek gerekirse, sebep sonuç ilişkisine sahip olmamalıdır. Daha basit şekilde: korelasyonlar nedenselliği kanıtlamaz.
Açık bir sebep sonuç ilişkisine ek olarak, korelasyonlar kaynak:
- Çok şanslı (Tyler Vigen'in hikayesine bakın) Sahte korelasyonlar boşanma oranı ile arasında kuvvetli bir ilişki olduğu gibi resimlere margarin tüketimidir).
- İki değişken arasında gerçek bir ilişki bulunsa da hangi değişkenin nedensel olduğunu ve hangisinin etkilendiğini belirtir.
- Üçüncü olarak, her iki değişkeni de etkileyen ayrı bir neden korelasyonlu değişkenlerin birbiriyle ilişkisi yoktur. Global enflasyon, hem yat hem de kereviz fiyatlarını yükseltebilir.6
Mevcut verilerin ötesinde bir korelasyon ortaya koymak da risklidir. Huff, biraz yağmurun mahsulleri iyileştireceğini ancak çok fazla yağmurun zarara neden olacağını belirtir. onlar; yağmur ve mahsul sonuçları arasındaki ilişki doğrusal değildir.7 (bkz. doğrusal olmayan ilişkiler hakkında daha fazla bilgi edineceksiniz.) Özge dünyanın öngörülemeyen olaylarla dolu olduğunu, zaman serisi verilerinin gelecekteki tahminlerini belirsizlik var.8
Ayrıca, sebep ve sonuca dayalı gerçek bir bağıntı bile yardımcı olan ekip çalışmasıdır. Örnek olarak Huff, yüksek öğrenime başladım. Gitmiş olan kadınlar üniversitelerin evlenme olasılığı daha düşüktü, ancak durum böyle olabilirdi üniversiteye giden kadınların başlangıçta evliliğe daha az eğilimli olduğunu gördük. Öyleyse yüksek öğrenim seviyesi bu olasılığı değiştirmedi. önemli bir parçası.9
Analizde veri kümesindeki iki değişken arasında korelasyon saptarsa şu soruları sorun:
- Bu ne tür bir ilişki var? Sebep sonuç, sahte, bilinmeyen yoksa üçüncü bir değişkenden mi kaynaklanıyor?
- Verilerden ekstrapolasyon ne kadar riskli? Verilere ilişkin her model tahmini verilerinde interpolasyon veya bunların ekstrapolasyonundan bahsedeceğiz.
- Bu bağıntı, faydalı kararlar almak için kullanılabilir mi? Örneğin, İyimserlik artan ücretlerle güçlü bir şekilde ilişkili olabilir, ancak sosyal medya gibi büyük metin veri topluluklarının yaklaşım analizi belirli bir ülkedeki kullanıcıların gönderilerini o ülkedeki ücret artışları.
Makine öğrenimi uzmanları genellikle bir modeli eğitirken ve etiketle güçlü bir ilişkisi vardır. Özellikler arasındaki ilişki ve etiket iyi anlaşılmıyorsa bu durum, Google'ın Bu bölümde, sahte korelasyonlara ve modellere dayalı modeller dahil olmak üzere, gelecekte de devam edeceğini varsayan anahtar kelimeler kullanır. kullanmayın.
Doğrusal ağırlık
İçinde "Doğrusal Olmayan Bir Dünyada Doğrusal Düşünme," Bart de Langhe, Stefano Puntoni ve Richard Larrick doğrusal ön yargıyı insan beyninin doğrusal ilişkiler bekleme ve bu ilişkilere bakma eğilimi çoğu olgu doğrusal değildir. İnsanların tutumları ile yaklaşımları arasındaki bir çizgi değil dışbükey bir eğri olduğunu varsayalım. 2007'de Journal of Tüketici Politikası makalesi de Langhe ve diğerleri, Jenny van Doorn ve diğerleri anket katılımcıları arasındaki ilişkiyi modelledi endişelerini katılımcıların bulunduğu ortam ve ... Şuna sahip olanlar: çevreyle ilgili en büyük endişeler daha fazla organik ürün satın aldı, ama bazı zorluklar yanıtlayanlar arasında çok az fark var.
Model veya çalışma tasarlarken doğrusal olmayan problemlerin geliştirir. Çünkü A/B testi doğrusal olmayan ilişkileri kaçırabilir, ayrıca orta seviye ve durumu, C. Ayrıca, burada gösterilen ilk davranışın doğrusal olmaya devam edeceği veya gelecekteki verilerin modelde logaritmik veya doğrusal olmayan diğer davranışları gösterir.
Bu varsayımsal örnekte, logaritmik veriler için hatalı bir doğrusal örtüşme gösterilmektedir. Yalnızca ilk birkaç veri noktası kullanılabilir olsaydı her ikisi de ve değişkenler arasında süregiden bir doğrusal ilişki olduğunu varsaymak için yanlıştır.
Doğrusal interpolasyon
İnterpolasyon nedeniyle, veri noktaları arasındaki interpolasyonları inceleyin kurgusal noktalara yol açabilir ve gerçek ölçümler arasındaki aralıklarla anlamlı dalgalanmalar olabilir. Örnek olarak aşağıdakileri göz önünde bulundurun: doğrusal interpolasyonlarla bağlantılı dört veri noktasının görselleştirilmesi:
Daha sonra doğrusal bir interpolasyonla silinir:
Bu örnek ihtilaflıdır çünkü sismograflar sürekli veri toplar ve bu nedenle bu depremi kaçırmazsınız. Ancak zaman çizelgesini interpolasyonlar tarafından yapılan varsayımlar ve verilerin söz konusu uygulayıcılar gözden kaçırabilir.
Runge fenomeni
Runge fenomeni de Buna "polinom salınımı" denir. karşı ucundaki bir problemdir doğrusal interpolasyon ve doğrusal sapma. Polinom sığarken aşırı yüksek dereceli bir polinom kullanmak mümkündür. (derece veya sıra; polinom denklemindeki en yüksek üslü ifadedir). Bu kenarlarda ilginç salınımlar oluşturur. Örneğin, 11. derece polinom interpolasyonu, yani polinom denklemi \(x^{11}\), kabaca doğrusal verilere göre şu şekildedir: başında ve sonunda çok kötü tahminler veri aralığı:
Makine öğrenimi bağlamında benzer bir olgu .
Tespit edilen istatistiksel hatalar
Bazı durumlarda istatistiksel bir test, bir işlevi tespit edemeyecek kadar yeterli yardımcı olabilir. İstatistiksel analizde gücün düşük olması, doğru olma ihtimalinin de düşük olduğu anlamına gelir ve yanlış negatif sonuç verme ihtimalinin yüksek olması anlamına gelir. Katherine Button ve diğerleri Doğa'ya şunu yazdı: "Belirli bir alandaki çalışmalar değeri %20 ile tasarlanır. Bu, değer atanacak 100 gerçek değer keşfedilecek etkilerin ortaya çıkması için, bu çalışmaların yalnızca 20 tanesine gidebilirsiniz." Örnek boyutunu büyütmek bazen işe yarayabilir, çalışma tasarımı.
Buna benzer bir durum da makine öğreniminde sınıflandırma ve sınıflandırma eşiği seçimi. Daha yüksek eşikler seçildiğinde daha az yanlış pozitif ve daha fazla yanlış negatif, eşik daha düşük bir sonuç ise daha fazla yanlış pozitif, daha az yanlış negatif.
İstatistiksel güçle ilgili sorunlara ek olarak, korelasyon doğrusal ilişkileri, doğrusal olmayan, korelasyonları ve eksik olabilir. Benzer şekilde, değişkenler de diğeri ise istatistiksel olarak bağıntısızdır. Değişkenler negatif olarak ilişkili, ancak tamamen alakasız Berkson paradoksu veya Berkson yanılgısı. Berkson'ın klasik örneği yanılgı, herhangi bir risk arasındaki sahte negatif korelasyondur. hastanede yatan hasta nüfusa bakarken, etmenleri ve ciddi düzeyde popülasyona kıyasla) ve seçim sürecinden kaynaklanan (bir grup insan hastaneye yatış gerektirecek kadar ciddi bir durum).
Bu durumlardan herhangi birinin geçerli olup olmadığını düşünün.
Eski modeller ve geçersiz varsayımlar
İyi modeller bile zamanla bozulabilir çünkü davranış (ve dünya, değişebilir. Netflix'in erken tahmin modellerinin kullanımdan kaldırılması gerekiyordu. teknoloji meraklısı genç kullanıcılardan oluşan müşteri tabanları genel olarak değişerek nüfus.10
Modeller, gizli kalabilecek sessiz ve yanlış varsayımlar da içerebilir. 2008'deki pazar çöküşünde olduğu gibi, modelin ciddi bir başarısızlığına uğrayana kadar. İlgili içeriği oluşturmak için kullanılan finans sektörünün Risk Altındaki Değer (VaR) modellerinin Tacirin portföyündeki maksimum kayıp, örneğin maksimum kayıp Toplam sürenin% 99'unda 100.000 ABD doları bekleniyor. Ama anormal koşullarda beklenen maksimum $100.000 kaybın olduğu bir portföy bazen kayboldu $1.000.000 veya daha fazla.
VaR modelleri hatalı varsayımlara dayanıyordu. Bunlardan bazıları:
- Geçmiş piyasa değişiklikleri, gelecekteki pazar değişimlerine dair tahminler sunar.
- Normal (ince kuyruklu ve dolayısıyla tahmin edilebilir) dağılım ne anlama geldiğine bakalım.
Aslında temel dağılım "yağ kuyruklu", "vahşi" fraktal gibi yani uzun kuyruk, aşırı ve yapay zeka ihlali riski normal dağılımdan daha nadir görülen olayları ifade eder. Yağ kuyruklu bu madde gerçek dağılım iyi biliniyordu ancak adım adım uygulanmadı. Hangi yönleri daha az iyiydi? daha karmaşık ve birbiriyle sıkı bir biçimde ilişkili olan, otomatik satışlarla bilgisayar tabanlı ticaret.11
Toplama sorunları
Çoğu demografik ve epidemiyolojik verileri de içeren birleştirilmiş veriler belirli tuzaklara tabidir. Simpson paradoksu veya amalgamasyon paradoksu, trendlerin belirgin bir şekilde gösterildiği birleştirilmiş verilerde görülür. verilerin farklı bir düzeyde toplanması nedeniyle, veriler farklı bir düzeyde toplandığında nedensel ilişkilerin yanlış anlaşıldığını ve katılımcıların bulunduğunu tespit ettik.
Ekolojik yanılgı, bir teknolojiyle alakalı bilgilerin yanlış bir şekilde yorumlanması bir toplama düzeyine sahip bir popülasyonu, başka bir toplama düzeyine aktarır. hak talebi geçerli olmayabilir. ABD'de tarım işçilerinin% 40'ını etkileyen bir hastalık bir il, daha geniş bölgelerdeki aynı yaygınlıkta bulunmayabilir kullanır. Ayrıca büyük olasılıkla, söz konusu izole edilmiş çiftlikler benzer şekilde yüksek bir artış yaşamayan tarım kasabaları yaygınlaşmasına yardımcı olur. Daha az etkilenen gruplarda% 40 oranında bir yaygınlık olduğunu varsaymak yanıltıcı olur.
Değiştirilebilir alan birimi problemi (MAUP), dünya genelinde bilinen bir problemdir. Stan Openshaw tarafından 1984 yılında açıklanan jeo-uzamsal veri CATMOG 38 Kullanılan alanların şekil ve boyutlarına bağlı olarak, bir jeo-uzamsal veri uygulayıcısı hemen hemen her verilerdeki değişkenlerin birbiriyle ilişkisini gözlemlemenizi sağlar. Çizimle oy kullanma MAUP örneği olarak verilebilir.
Bu durumların tümü, tek bir kişiden uygun olmayan bir şekilde başka bir düzeye geçirmelisiniz. Farklı analiz düzeyleri, farklı düzeylerde tamamen farklı veri kümelerinden bile toplandığı anlamına gelir.12
Nüfus sayımı, demografik ve epidemiyolojik verilerin genellikle gizlilik nedeniyle bölgelere göre toplanmıştır ve bu bölgelerin çoğu zaman Yani, gerçek dünyadaki anlamlı sınırlara dayanmıyor. Zaman makine öğrenimi uzmanları, modelin bu tür verilerle performans ve tahminler, bölgelerin boyutuna ve şekline göre değişir seviyesi ve toplama düzeyinin yanı sıra varsa model tahminlerinin bu toplama sorunlarının birinden etkileniyor.
Referanslar
Button, Katharine ve diğerleri "Güç kesintisi: Küçük örnek boyutunun neden kötü performans gösterdiği nörobiliminin güvenilirliğine inanıyorum." Doğa İncelemeler Nörobilim cilt 14 (2013), 365-376. DOI: https://doi.org/10.1038/nrn3475
Kahire, Alberto. Grafikler Nasıl Yalan: Görsel Bilgiler Hakkında Daha Akıllı Olma. New York: B.B. Norton, 2019.
Davenport, Thomas H. "A Predictionive Analytics Primer." (Tahmine Dayalı Analiz Primer). HBR Veri Kılavuzu'nda Yöneticiler İçin Analytics ile İlgili Temel Bilgiler (Boston: HBR Press, 2018) 81-86.
De Langhe, Bart, Stefano Puntoni ve Richard Larrick. "Doğrusal Olmayan Dünyada Doğrusal Düşünme." HBR Guide to Data Analytics Basics for Managers (Yöneticiler için Veri Analizinin Temelleri HBR Kılavuzu) (Boston: HBR Press, 2018) 131-154.
Ellenberg, Ürdün. How Not To Be Right: The Power of matematikal Düşünme. NY: Penguen, 2014.
Hımm, Darrell. İstatistikler nasıl yatar? NY: W.W. Norton, 1954.
Cem, Cem. Veri Tuzaklarından Kaçınma. Hoboken, NJ: Wiley, 2020.
Openshaw, Stan. "The Değiştirilebilir Alan Birimi Sorunu," CATMOG 38 (Norwich, İngiltere: Geo Books 1984) 37.
The Risks of Financial Modeling: VaR ve the Economic Meltdown, 111. Kongre (2009) (N. Taleb ve Richard Bookstaber).
Rüzgar, Davut. "Ne zaman bir bağıntıya göre hareket etmeli ve ne zaman yapılmalı." HBR Kılavuzu'nda Data Analytics Basics for Managers (Yöneticiler için Veri Analiziyle İlgili Temel Bilgiler) (Boston: HBR Press, 2018) 103-109.
Tulchinsky, Theodore H. ve Elena A. Varavikova. "3. Bölüm: Bir Popülasyonun Sağlığını Ölçme, İzleme ve Değerlendirme" The New Public Health, 3. sürüm San Diego: Academic Press, 2014, s. 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.
Van Doorn, Jenny, Peter C. Verhoef ve Tammo H. C. Bijmolt. "İş Listesi'nin politikalarda tutum ve davranış arasındaki doğrusal olmayan ilişkiler bahsediyor." Journal of Consumer Policy 30 (2007) 75-90. DOI: https://doi.org/10.1007/s10603-007-9028-3
Resim referansı
"Von Mises Distribution"a göre. Rainald62, 2018. Kaynak
-
Ellenberg 125. ↩
-
77-79 arası. Huff, Princeton'ın Kamu Görüşü Araştırmaları Ofisi'nden alıntı yapmış, ancak aklına ilk önce Nisan 1944 raporu (Ulusal Ödüllü Anketler, Denver Üniversitesi) tarafından. ↩
-
Tulchinsky ve Varavikova. ↩
-
Gary Taubes Bizi Sağlıklı Kılan Unsurları Gerçekten Biliyoruz mu?" (The New York Times Magazine, 16 Eylül 2007).↩
-
Ellenberg 78. ↩
-
91-92 arası. ↩
-
Hüüf 93. ↩
-
Jones 157-167. ↩
-
Hüüf 95. ↩
-
Davenport 84. ↩
-
Nassim N. Taleb ve Richard Bookstaber, The Risks of Financial Modeling: VaR and the Economic Meltdown, 111. Kongre (2009) 11-67.↩
-
Kahire 155, 162. ↩