Fallen

Menschen sind aufgrund ihrer menschlichen Identität kognitiven Verzerrungen ausgesetzt, einschließlich Rationalisierungs- und Bestätigungsverzerrung. Alberto Cairo schreibt: „Rationalisierung ist der Standardmodus des menschlichen Gehirns.“1 Sehr oft erwarten oder wünschen Menschen und suchen Sie dann nach Daten oder Beweisen, die das Ergebnis stützen.

Wenn Sie mit Daten und Modellen arbeiten oder diese bewerten, die aus vielen verschiedene Quellen zu nutzen, und fragen Sie nach möglichen Quellen der Voreingenommenheit. Beispiel:

  • Wer finanziert dieses Modell oder diese Studie? Was ist der Markt oder kommerzielle App?
  • Welche Anreize gibt es für die Personen, die an der Datenerhebung beteiligt sind?
  • Welche Anreize gibt es für die Forschenden, die das Modell trainieren oder Durchführung der Studie, einschließlich Veröffentlichung und Dauer?
  • Wer lizenziert das Modell oder veröffentlicht die Studie und was ist ihre Incentives?

Beschreibende Statistik

Mittelwert (Summe der Werte geteilt durch Anzahl), Medianwert (mittlerer Wert, wenn Werte sortiert) und mode (häufigster Wert) sind oft hilfreich, um ein Gefühl für die Form eines Datasets zu bekommen. Wenn der Medianwert und der Mittelwert weit voneinander entfernt sind können beispielsweise extrem extreme und asymmetrische Werte im festgelegt.

den Bereich, d. h. die Differenz zwischen dem höchsten und dem niedrigsten Wert und die Varianz, d. h. die mittlere quadratische Differenz zwischen jedem Wert und dem Mittelwert der Menge, liefern auch nützliche Informationen und Form des Datasets.

Fragen Sie vor dem Trainieren eines Modells mit Ihren Daten auch, ob das Dataset Unausgeglichen und, wenn ja, ob dieses Ungleichgewicht beseitigt werden sollte.

Wahrscheinliche Unwahrscheinlichkeiten und p-Werte

Bei ausreichender Zeit und Chancen kann das Eintreten eines sehr wahrscheinlich wird. Weitere Informationen finden Sie in der Betrug an Börsenbroker in Baltimore ein mögliches Beispiel.

Nach wissenschaftlichem Konsens wird ein Ergebnis als statistisch signifikant angesehen (und also veröffentlichbar), wenn der p-Wert kleiner als 0,05 ist. Das bedeutet, dass es eine Die Wahrscheinlichkeit, dass dasselbe oder ein extremeres Ergebnis unter der Kategorie Null-Hypothese, also das Ergebnis des Zufalls. Umgangssprachlich Forschende dürfen nur veröffentlichen, wenn es eine Chance von 1 von 20 gibt, dass ihre Ergebnisse das Ergebnis der Zufälligkeit sind. Alternativ und noch beunruhigender ist, ungefähr einmal in zwanzig Tests, so scheint ein falsches Ergebnis von Bedeutung sein, obwohl dies nicht der Fall ist, und die anderen 19 Ergebnisse werden veröffentlicht. In einem Artikel von 2005 „Why Most Research Findings Are False“, nannte John Ioannidis mehrere Faktoren, von statistischen bis finanzieller Art, die zur Veröffentlichung gefälschter Ergebnisse beiträgt.

Angesichts der hohen Anreize für eine Veröffentlichung zögern Forscher manchmal p-Werte um 0,05 unter diesen Grenzwert zu senken. Andere Male, veröffentlichte Studie zu unerwarteten und ungewöhnlichen Ergebnissen führen, nicht replizierbar sein (und daher möglicherweise das Ergebnis des Zufalls). Dies hat dazu geführt, Vertrauenskrise in mehreren Feldern. Dies hat auch zur Schaffung von die sich dem Testen der Reproduzierbarkeit widmen.

Im Bereich des maschinellen Lernens gelten Modelle nur dann als „modern“, wenn sie übertreffen die Bewertungs-Benchmarks der meisten anderen Wettbewerbsmodelle. Es ist dass Modellbewertungswerte ähnlich unter Druck gesetzt werden, kann durch Datenlecks künstlich erhöht werden.2

P-Werte können bei der Feature-Auswahl für Regressionsmodelle nützlich sein. ANOVA Die Varianzanalyse ist ein statistisches Verfahren, bei dem Varianz innerhalb der Gruppen bis zu einer Varianz zwischen den Gruppen, wodurch ein F-Statistik und p-Wert für jedes Feature. Die Auswahl der wichtigsten Merkmale mit niedrigsten p-Werten kann die die Anzahl der Merkmale zu ermitteln, die ein Modell berücksichtigen muss, ohne dass dadurch viel vorhersehbare Energie. Dies spart Rechenleistung und vermeidet das Problem zu vieler Funktionen, die in einem späteren Abschnitt behandelt werden. Scikit- Weitere Informationen zur Auswahl von Funktionen

Das Problem mit mehreren Vergleichen

Das Problem der Signifikanzschwelle ist besonders schwerwiegend in Situationen, werden mehrere Vergleiche mit der Nullhypothese . Dies ist ein spezielles Problem bei fMRI-Studien.

Bei einem fMRI ist jedes Voxel (Volumeneinheit) des Gehirns wird unabhängig voneinander auf statistische Signifikanz Aktivität. Wenn ja, wird hervorgehoben. Dies führt zu einer Größenordnung Es werden 100.000 unabhängige Signifikanztests gleichzeitig durchgeführt. Bei einem Wert von 0,05 Signifikanzschwelle erwartet die statistische Theorie ungefähr 5.000 falsche positive Ergebnisse in einem einzelnen fMRI enthalten.3

Das Problem lässt sich wahrscheinlich am besten in einem Bericht von Bennett et al. von 2009 Poster, „Neuronale Korrelation der interspecies-Perspektive in der postmortem-Analyse des Atlantischen Lachs, mit dem die Ig-Nobelpreis Die Forscher zeigten 15 Fotos von von Menschen in hochemotionalen Situationen bis zu einem toten Lachs in einem fMRI-Gerät. den toten Lachs bitten, zu bestimmen, welche Emotionen der Wesen erlebt. Ein statistisch signifikanter Cluster wurde gefunden. der aktiven Voxel in der Gehirnhöhle des Lachses. dass der tote Lachs tatsächlich perspektivisch war. Noch ernster: die Forschenden die Aufmerksamkeit auf das Problem der Mehrfachvergleiche in fMRI und ähnliche bildgebende Situationen sowie die Notwendigkeit von Risikominderungen.

Eine offensichtliche, grobe Lösung den p-Schwellenwert, der auf Signifikanz hinweist, herabgesetzt wird. Inhärente Kompromiss zwischen Empfindlichkeit (Erfassung aller richtig positiven Ergebnisse) und Spezifität (Alle richtig negativen Ergebnisse identifizieren). Eine Erörterung der Sensibilität, Rate echt positiver Ergebnisse finden Sie im Klassifizierungsmodul. Crashkurs „Machine Learning“.

Eine weitere Abhilfemaßnahme besteht in der Steuerung der familienbezogenen Fehlerrate (FWER). ist die Wahrscheinlichkeit mindestens eines falsch positiven Ergebnisses. Eine andere Person steuert die Falsche Erkennungsrate (FDR) oder der erwartete Anteil der falsch positiven Ergebnisse Positives zu vernachlässigen. Siehe Beweise für Governance und Politik“ Leitfaden zum Problem mit mehreren Vergleichen, sowie Lindquist und Mejias „Zen und die Kunst mehrerer Vergleiche“ . Dort finden Sie Erläuterungen zu diesen Methoden und einige Schritt-für-Schritt-Anleitungen. In der Situation bei der Kontrolle über FDR und FWER gezeigt hat, dass keine Voxel, statistisch signifikant sind.

Das Trainieren von ML-Modellen für Scans aus fMRI und anderen Bildgebungsmethoden sowohl im Bereich der medizinischen Diagnose4 als auch bei der Bildrekonstruktion beliebt aus Gehirnaktivität.5 Wenn diese Modelle mit einem ausreichend großen könnte die Wahrscheinlichkeit von Problemen aus den verschiedenen Problem zu vergleichen. Insbesondere im Bereich der Diagnosen kann ungenaue Rückschlüsse auf neue einzelne Scans geben, wenn 20% der „aktiven“ Voxel sind tatsächlich falsch positive Ergebnisse. Die diagnostische fMRI-Klassifizierung Modelle, die in Li und Zhao beschrieben wurden, eine Genauigkeit von ca. 70 bis 85% aufweisen.

Zu viele Variablen in Regressionsanalyse

Das Problem der Mehrfachvergleiche erstreckt sich auch auf die Analyse mehrerer Regressionen. Regressionsanalyse oder lineare Regression ist das Rückgrat vieler numerischer Vorhersagemodelle. Die Regressionsanalyse verwendet eine von mehreren Methoden, z. B. die kleinsten Quadrate, um den Regressionskoeffizienten zu bestimmen, der am besten beschreibt, wie sich eine Variable eine andere. Forschende können fragen, wie Alter und Rauchen die Lungenkrebsraten beeinflussen, Darstellung jedes Faktors als Variable in einer Regressionsanalyse von Krebs Häufigkeit von Rauchern und Nichtrauchern unterschiedlichen Alters. Ein lineares Regressionsmodell die auf ähnliche Weise funktioniert und daher interpretierbar im Vergleich zu anderen ML-Modellen. Die Regression finden Koeffizienten dieser Variablen beschreiben die linearen Beziehungen zwischen Variablen und Lungenkrebsraten.

Es kann verlockend sein, alle möglichen Variablen in eine Regressionsanalyse nicht zuletzt, weil das Fehlen eines kritischen Faktors zu dessen Beitrag führen kann. übersehen wird. Wenn Sie einer Regressionsanalyse jedoch zu viele Variablen hinzufügen, erhöht die Wahrscheinlichkeit, dass eine irrelevante Variable statistisch erfasst wird. signifikant sind. Wenn wir achtzehn weitere irrelevante Variablen zu unserer Analyse hinzufügen, "angesehene Filme" und „Hunde in Besitz“, ist es wahrscheinlich, dass einer dieser werden irrelevante Variablen zufällig mit höhere Lungenkrebsraten.6

Im ML-Kontext bekommen Sie dagegen zu viele Funktionen modellieren, was dazu führen kann, Überanpassung, und andere Probleme.

Rückschlüsse und Entscheidungsfindung

Eine Möglichkeit, solche Denkfallen zu umgehen, ist die Analyse von Statistiken und ML. Modelle, die aus Statistiken abgeleitet sind, als Tools für die Entscheidungsfindung, anstatt Fragen zu beantworten. Dies war der von Jerzy Neyman und Egon Sharpe Pearson.7

In diesem Framework können Daten, Datenstatistiken und Ableitungen, einschließlich ML-Modellen, am besten für probabilistische Vorhersagen, allgemeine Aussagen abgelehnt, Verbesserung und Fokussierung Forschungsfragen stellen und bei der Entscheidungsfindung helfen. Sie sind nicht gut geeignet für die Bekräftigung der Wahrheit.

Laut David Ritter gründeten Entscheidungen auf Korrelationen selbst Datenmengen auf zwei Faktoren basieren:

  • „Zuversicht, dass sich die Korrelation in Zukunft zuverlässig wiederholen wird“, welche sollte darauf basieren, wie häufig diese Korrelation im der Vergangenheit und ein genaues Verständnis der Ursache dieser Korrelation.
  • Risiken und Vorteile des Handelns8

Außerdem sind möglicherweise nicht alle Forschungsfragen für KI geeignet. Anastassien Fedyk nennt zwei Kriterien für ein KI-geeignetes Problem:

  • Das Problem erfordert eine Vorhersage, kein Verständnis von kausalen Zusammenhängen.
  • Die in die KI eingespeisten Daten enthalten alles, was über die Problem: also ist das Problem eigenständig.9

Verweise

Bennett, Craig M. Abigail A. Baird, Michael B. Miller und George L. Wolford. „Neuronale Korrelationen der Interspezies-Perspektive bei der Postmortem-Analyse Atlantic Salmon: Ein Argument für die Korrektur mehrerer Vergleiche.“ Neuroimage (2009):

Kairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. New York: W.W. Norton, 2019.

Davenport, Thomas H. „A Predictive Analytics Primer“. Im HBR-Leitfaden zu Daten Analytics Basics for Managers (Boston: HBR Press, 2018) 81–86.

Ellenberg, Jordanien. Richtig falsch liegen: Die Macht des mathematischen Denkens. New York: Pinguin, 2014.

Fedyk, Anastassia. „Kann Machine Learning Ihr Geschäftsproblem lösen?“ In HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 111-119.

Gallo, Anna: „A Refresher on Statistical Significance“. Im HBR-Leitfaden zu Daten Analytics Basics for Managers (Boston: HBR Press, 2018) 121-129.

Huff, Darrell. So lügen Sie mit Statistiken. NY: W.W. Norton, 1954.

Ioannidis, John P.A. „Why Most Published Research Findings Are False.“ In PLoS Med 2 Nr. 8: e124.

Jonas, Ben: Datenfallen vermeiden. Hoboken, NJ: Wiley, 2020

Li, Jiangxue und Peize Zhao. „Deep Learning Applications in fMRI – a Review Work“ ICBBB 2023 (Tokio, Japan, 13.–16. Januar 2023): 75–80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. und Amanda Mejia. „Zen und die Kunst mehrerer Vergleiche.“ Psychosomatische Medizin 77 Nr. 2 (Februar bis März 2015): 114–125. Doi: 10.1097/PSY.0000000000000148.

Ritter, David. „When to Act on a Correlation, and When Not To.“ Im HBR-Leitfaden für Grundlagen der Datenanalyse für Manager (Boston: HBR Press, 2018) 103-109.

Tagaki, Yu und Shinji Nishimoto. „Hochauflösende Bildrekonstruktion mit latenten Diffusionsmodellen aus menschlichen Gehirnaktivitäten.“ IEEE/CVF Conference 2023 zu Maschinelles Sehen und Mustererkennung (Vancouver, British Columbia, Kanada, 2023): 14453-14463. Doi: 10.1109/CVPR52729.2023.01389.

Wheelan, Charles. Naked Statistics: Aus den Daten die Schreckliche rauskriegen. New York: W.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen Yankai Lin, Ji-Rong Wen und Jiawei Han. „Don't Make Your LLM an Evaluation Benchmark Cheater.“ arXiv:2311.01964 cs.CL.


  1. Kairo 182. 

  2. Zhou et al.

  3. Lindquist und Mejia. 

  4. Li und Zhao, 77–78. 

  5. Tagaki und Nishimoto. 

  6. Wheelan 221 

  7. Ellenberg 159. 

  8. Ritter 104. 

  9. Fedyk 113.