Analysefallen

„Alle Modelle sind falsch, aber einige sind nützlich.“ – George Box, 1978

Statistische Techniken sind zwar leistungsstark, haben aber auch ihre Grenzen. Verständnis können Forschende Missverständnisse und ungenaue Behauptungen vermeiden, z. B. Die Behauptung von BF Skinner, dass Shakespeare die Alliteration nicht öfter verwendet als vorhersagen könnte. (Skinners Studie war zu wenig Leistung.1)

Unsicherheits- und Fehlerbalken

Es ist wichtig, Unsicherheit in Ihrer Analyse anzugeben. Ebenso wichtig ist es, um die Unsicherheit in den Analysen anderer Personen zu quantifizieren. Datenpunkte, die angezeigt werden in einem Diagramm mit überlappenden Fehlerbalken dargestellt, überhaupt kein Muster. Die Unsicherheit kann auch zu hoch sein, um nützliche Informationen zu zeichnen. Schlussfolgerungen aus einer bestimmten Studie oder einem statistischen Test. Wenn eine Forschungsstudie erfordert eine Genauigkeit auf Losebene, einen Geodatensatz mit einer Unsicherheit von +/- 500 m zu viel Unsicherheit, um brauchbar zu sein.

Alternativ können Unsicherheitsstufen bei der Entscheidungsfindung hilfreich sein. Prozesse. Daten, die eine bestimmte Wasseraufbereitung mit einer Unsicherheit von 20% in können die Ergebnisse zu einer Empfehlung für den Einsatz dieses Beobachtung des Programms, um diese Unsicherheit zu beseitigen.

Bayessche neuronale Netzwerke kann Unsicherheit quantifizieren, indem Werteverteilungen statt einzelner Werte vorhergesagt werden. Werte.

Irrelevanz

Wie in der Einführung besprochen, besteht immer zumindest eine kleine Lücke zwischen Daten und Grundwahrheit. Der kluge ML-Experte sollte feststellen, ob die Dataset für die gestellte Frage relevant ist.

Huff beschreibt eine frühe öffentliche Meinungsstudie, die ergab, dass wie einfach es für Schwarze Amerikaner war, einen guten direkt und umgekehrt mit ihrem Niveau an der Schwarzen Amerikaner. Mit zunehmenden Rassenanimus Reaktionen auf erwartete wirtschaftliche Chancen stiegen immer mehr optimistisch. Dies könnte als Zeichen für Fortschritte missverstanden werden. Die Studie könnte jedoch nichts über die tatsächlichen wirtschaftliche Chancen gab, die Schwarzen Amerikanern zu dieser Zeit boten. um Schlussfolgerungen über die Realität auf dem Arbeitsmarkt zu ziehen, Meinungen der Umfrageteilnehmer. Die erhobenen Daten waren für die Lage auf dem Arbeitsmarkt irrelevant.2

Sie könnten ein Modell mit Umfragedaten wie oben beschrieben trainieren, wobei das Modell In der Ausgabe wird tatsächlich Optimismus und nicht die Chance gemessen. Aber weil prognostizierte Empfehlungen sind für die tatsächlichen Empfehlungen nicht relevant, dass das Modell tatsächliche Chancen prognostiziert hat, was das Modell vorhersagt.

Verwirrung

Eine Confounding-Variable, confound oder cofactor ist eine Variable. nicht untersucht wurden, beeinflusst die Variablen, die untersucht werden, und kann die Ergebnisse verzerren. Nehmen wir als Beispiel ein ML-Modell, das Sterblichkeitsraten für eine Eingabe vorhersagt. basierend auf Funktionen für die Gesundheitspolitik. Angenommen, der Medianwert Alter ist kein Feature. Nehmen wir weiter an, dass es in einigen Ländern eine ältere als andere. Wenn Sie die verwirrende Variable des Medianwerts könnte dieses Modell fehlerhafte Sterblichkeitsraten vorhersagen.

In den USA steht die ethnische Herkunft oft in engem Zusammenhang mit sozioökonomischen class, obwohl nur ethnische Herkunft und nicht Klasse, werden mit Sterblichkeitsdaten aufgezeichnet. Verwirrung aus der Klasse, z. B. Zugang zu Gesundheitsversorgung, Ernährung, gefährliche Arbeit und sicheren Wohnraum, haben möglicherweise stärkeren Einfluss auf die Sterblichkeitsraten als aber vernachlässigt werden, da sie nicht in den Datasets enthalten sind.3 Identifizieren und die Beseitigung dieser Verwechslungen ist entscheidend für die Erstellung nützlicher Modelle und aussagekräftige und zutreffende Schlussfolgerungen ziehen.

Ob ein Modell mit vorhandenen Sterblichkeitsdaten trainiert wird, die ethnische Herkunft enthalten, aber nicht kann die Sterblichkeit basierend auf der ethnischen Herkunft vorhersagen, auch wenn die Klasse eine stärkere Klasse ist. Prädiktor der Sterblichkeit. Dies könnte zu ungenauen Annahmen über und ungenaue Vorhersagen über die Sterblichkeit von Patienten. ML-Anwender sollten Sie fragen, ob die Daten Verwirrung stiften, möglicherweise fehlen.

Im Jahr 1985 Health Study, eine Kohortenstudie von Harvard der Medical School und der Harvard School of Public Health, Die Einnahme von Östrogenersatztherapien hatte eine geringere Häufigkeit von Herzinfarkten. verglichen mit Mitgliedern der Kohorte, Östrogen. Infolgedessen verschrieben Ärzte ihren jahrzehntelang in der Menopause und Postmenopause beschäftigt, 2002 identifizierten sie Gesundheitsrisiken, die durch eine langfristige Östrogentherapie entstehen. Die Praxis Frauen nach der Menopause wurden aufgehört, Östrogen zu verschreiben, aber nicht bevor sie verursacht wurden. schätzungsweise Zehntausende vorzeitiger Todesfälle.

Mehrere Störfaktoren können die Verknüpfung verursacht haben. Epidemiologen gefunden Frauen, die eine Hormonersatztherapie machen, sind meist dünner, gebildeter, reicher und bewusster und Sport treiben können. In verschiedenen Studien waren Bildung und Wohlstand reduziert das Risiko von Herzerkrankungen. Diese Effekte hätten den offensichtlichen Zusammenhang zwischen Östrogentherapie und Herzinfarkten.4

Prozentsätze mit negativen Zahlen

Vermeiden Sie Prozentangaben,wenn negative Zahlen vorhanden sind.5 oder sinnvolle Gewinne und Verluste verdeckt werden können. Angenommen, um der einfachen dass die Restaurantbranche über 2 Millionen Arbeitsplätze verfügt. Wenn die Branche einen Millionen dieser Stellen Ende März 2020, gab es bei zehn Jobs keine Nettoveränderung. und gewinnt Anfang Februar 2021 900.000 neue Arbeitsplätze dass Anfang März 2021 nur 5% der Stellen im Restaurant verloren gehen. Vergleich zum Vorjahr Ende Februar ohne weitere Änderungen 2022 würde die Zahl der Jobs im Restaurant um 90 % die Realität abbilden.

Tatsächliche Zahlen sind bevorzugt, je nach Bedarf normalisiert. Siehe Mit numerischen Werten arbeiten Cata finden Sie weitere Informationen.

Post-hoc-Fallacy und unbrauchbare Korrelationen

Der Post-hoc-Fallacy ist die Annahme, dass auf Ereignis A Ereignis B hat Ereignis A ausgelöst und Ereignis B ausgelöst. Einfach ausgedrückt, wird angenommen, dass Ursache-Wirkungs-Beziehung, wenn es keine gibt. Noch einfacher: Korrelationen beweisen keine Kausalität.

Neben einer klaren Ursache-Wirkung-Beziehung können auch Korrelationen ergeben sich aus:

  • Reine Chance (siehe Tyler Vigens Falsche Korrelationen für Illustrationen, einschließlich starker Korrelation zwischen der Scheidungsrate in Maine und Margarine konsumiert.
  • Eine echte Beziehung zwischen zwei Variablen, auch wenn unklar ist, welche davon Variable kausal ist und welche davon betroffen ist.
  • Eine dritte, separate Ursache, die beide Variablen beeinflusst, obwohl die korrelierte Variablen unabhängig voneinander. Globale Inflation kann beispielsweise den Preis für Jachten und Sellerie erhöhen.6

Außerdem ist es riskant, eine Korrelation über die vorhandenen Daten hinaus zu extrapolieren. Huff weist darauf hin, dass etwas Regen die Feldfrüchte begünstigt, aber zu viel Regen Schaden anrichten kann ist die Beziehung zwischen Regen und Ernte nicht linear.7 (Siehe in den nächsten beiden Abschnitten finden Sie weitere Informationen zu nicht linearen Beziehungen.) Jonas stellt fest, dass die Welt voller unvorhersehbarer Ereignisse ist. wie Krieg und Hungersnot, könnten künftige Prognosen von Zeitreihendaten enorme Unsicherheit.8

Darüber hinaus ist selbst ein tatsächlicher Zusammenhang, der auf Ursache und Wirkung basiert, möglicherweise nicht bei der Entscheidungsfindung. Huff gibt zum Beispiel die Korrelation zwischen Heiratsvermittlung und College-Ausbildung in den 1950er Jahren. Frauen, die besucht haben, zu heiraten, aber es hätte sein können, dass Frauen, die aufs College gingen, von Anfang an weniger geneigt waren, zu heiraten. In diesem Fall hätte ein Studium nicht die Wahrscheinlichkeit, heiraten.9

Wenn bei einer Analyse eine Korrelation zwischen zwei Variablen in einem Dataset festgestellt wird, stellen Sie sich folgende Fragen:

  • Um welche Art von Korrelation handelt es sich: Ursache und Wirkung, unecht, unbekannt Beziehung oder durch eine dritte Variable verursacht?
  • Wie riskant ist die Hochrechnung aus den Daten? Jede Modellvorhersage für Daten nicht im Trainings-Dataset enthalten ist, eine Extrapolation aus den Daten.
  • Kann die Korrelation verwendet werden, um nützliche Entscheidungen zu treffen? Beispiel: Optimismus könnte stark mit steigenden Löhnen korrelieren, aber Sentimentanalyse eines großen Korpus von Textdaten, z. B. aus sozialen Medien von Nutzern in einem bestimmten Land zu posten, wäre es nicht hilfreich, Lohnerhöhungen in diesem Land.

Beim Trainieren eines Modells suchen ML-Anwender in der Regel nach Funktionen, eng mit dem Label korreliert. Wenn die Beziehung zwischen den Funktionen und die Bezeichnung nicht gut verständlich ist, könnte dies zu den in diesem Abschnitt, einschließlich Modelle, die auf falschen Korrelationen und Modellen basieren die davon ausgehen, dass sich historische Trends auch in Zukunft fortsetzen werden, sollten Sie nicht.

Die lineare Verzerrung

In „Linear Thinking in a Nonlinear World“ Bart de Langhe, Stefano Puntoni und Richard Larrick beschreiben lineares Bias die Tendenz des menschlichen Gehirns, lineare Beziehungen zu erwarten und zu suchen, obwohl sind viele Phänomene nicht linear. Die Beziehung zwischen menschlichen Einstellungen ist beispielsweise eine konvexe Kurve und keine Linie. In einem Journal of 2007 Artikel zur Verbraucherrichtlinie, zitiert von de Langhe et al., Jenny van Doorn et al. die Beziehung zwischen den Bedenken hinsichtlich der und die Anforderungen der Teilnehmenden von Bioprodukten. Unternehmen mit am stärksten um die Umwelt, kauften mehr Bioprodukte, aber es gab sehr kleinen Unterschied zwischen den anderen Befragten.

Vergleich zwischen dem Kauf von Bioprodukten und der Bewertung von Umweltbedenken
  Darstellung einer überwiegend flachen Linie mit einer scharfen konvexe Kurve nach oben ganz rechts
Vereinfachtes und angepasstes Diagramm von organischen Käufen im Vergleich zum Wert für Umweltbedenken von van Doorn et al. Papier

Berücksichtigen Sie beim Entwerfen von Modellen oder Studien die Möglichkeit eines nicht linearen Beziehungen. Da A/B Testing können nicht lineare Beziehungen übersehen, sollten Sie auch eine dritte, mittlere Bedingung, C. Überlegen Sie auch, ob das anfängliche Verhalten bleiben linear, oder ob zukünftige Daten Logarithmische oder andere nicht lineare Verhaltensweisen zeigen.

Eine lineare Anpassung von logarithmischen Daten, die eine gute Eignung für die ersten
  die Hälfte der Daten und anschließend wird es immer schlechter.
Beispiel für eine schlechte lineare Anpassung von logarithmischen Daten

Dieses hypothetische Beispiel zeigt eine fehlerhafte lineare Anpassung von logarithmischen Daten. Wenn nur die ersten Datenpunkte verfügbar wären, wäre es verlockend, und falsch, von einer fortlaufenden linearen Beziehung zwischen Variablen auszugehen.

Lineare Interpolation

Jede Interpolation zwischen Datenpunkten untersuchen, werden fiktive Punkte eingeführt. Die Abstände zwischen echten Messungen signifikante Schwankungen enthalten. Betrachten Sie zum Beispiel Folgendes: Visualisierung von vier Datenpunkten, die durch lineare Interpolationen verbunden sind:

Amplitude im Zeitverlauf mit vier Punkten, die durch eine gerade Linie verbunden sind.
Beispiel für lineare Interpolation

Betrachten Sie dann dieses Beispiel für Schwankungen zwischen Datenpunkten, die durch eine lineare Interpolation gelöscht:

Wie zuvor, aber große Schwankungen zwischen dem zweiten und dritten Punkt.
Beispiel für eine starke Schwankung (ein Erdbeben) zwischen Datenpunkten

Das Beispiel ist konstruiert, weil Seismographen kontinuierlich Daten sammeln. würde ich dieses Erdbeben nicht verpassen. Sie ist jedoch nützlich, um Annahmen durch Interpolationen und die realen Phänomene, dass Daten die Ärzte übersehen könnten.

Das Phänomen von Runge

das Runge-Phänomen, auch als „polynomes Wackeln“, ist ein Problem am anderen Ende des von linearer Interpolation und linearer Verzerrung. Beim Anpassen eines Polynoms Interpolation mit Daten ist es möglich, ein Polynom mit einem zu hohen Grad (Grad oder Ordnung ist der höchste Exponent in der Polynomgleichung). Dieses erzeugt ungerade Schwingungen an den Kanten. Zum Beispiel wird durch das Anwenden einer polynomialer Interpolation von Grad 11, was bedeutet, dass der die Polynomgleichung \(x^{11}\)zu linearen Daten ergibt, dass am Anfang und Ende Datenbereich:

Ungefähr linear
  Daten mit einer polynomialen Interpolation von Grad 11, was eine scharfe
  Ansteigende Spitze zwischen den ersten beiden Datenpunkten und ein starker Rückgang nach unten
  zwischen den letzten beiden Datenpunkten
Beispiel für das polynomiale Wackeln

Im ML-Kontext ist ein ähnliches Phänomen Überanpassung.

Statistische Fehler, die erkannt werden sollen

Manchmal ist ein statistischer Test zu unzureichend, um einen geringer Effekt. Geringe Stärke der statistischen Analyse bedeutet eine geringe Wahrscheinlichkeit, wahre Ereignisse und damit eine hohe Wahrscheinlichkeit falsch negativer Ergebnisse zu identifizieren. Katherine Button et al. schrieb in Nature: "Wenn Studien in einem bestimmten Bereich mit einer Potenz von 20 % entwickelt wurde, bedeutet dies, dass bei 100 echten Nicht-Null-Werten welche Auswirkungen sie in diesem Bereich haben, nur 20 davon.“ Das Vergrößern der Stichprobengröße kann manchmal hilfreich sein, Studiendesign.

Eine analoge Situation in ML ist das Problem, Klassifizierung und die Auswahl eines Klassifizierungsschwellenwerts. Die Wahl eines höheren Schwellenwerts weniger falsch positive und mehr falsch negative Ergebnisse, während sich ein niedrigerer Grenzwert ergibt zu mehr falsch positiven und weniger falsch negativen Ergebnissen.

Zusätzlich zu den Problemen mit der Teststärke, da die Korrelation zur Erkennung linearer Beziehungen, nicht linearer Korrelationen zwischen können Variablen übersehen werden. Variablen können sich auf die einzelnen aber nicht statistisch korreliert. Variablen können auch die negativ korrelieren, aber völlig unabhängig sind. Berkson-Paradox oder Berksonsches Trugschluss Das klassische Beispiel von Berkson Der Trugschluss ist die falsche negative Korrelation zwischen jedem Risiko und schwere Krankheiten bei der Betrachtung der stationären Bevölkerung eines Krankenhauses (als im Vergleich zur Allgemeinbevölkerung), die sich aus dem Auswahlprozess (eine so gravierend, dass ein Krankenhausaufenthalt erforderlich ist.

Überlegen Sie, ob eine dieser Situationen zutrifft.

Veraltete Modelle und ungültige Annahmen

Selbst gute Modelle können sich mit der Zeit verschlechtern, denn das Verhalten (und die Welt, können sich ändern. Die frühen Vorhersagemodelle von Netflix mussten eingestellt werden, Der Kundenstamm hat sich von jungen, technisch versierten Nutzern zu einer allgemeinen Bevölkerung.10

Modelle können auch stille und ungenaue Annahmen enthalten, die möglicherweise verborgen bleiben. bis zum katastrophalen Ausfall des Modells, wie beim Marktabsturz von 2008. Die Value at Risk-Modellen (VaR) der Finanzbranche geben an, dass sie eine präzise Schätzung den maximalen Verlust eines Trader-Portfolios, $100.000 in 99% der Fälle erwartet. Aber unter abnormalen Bedingungen ein Portfolio mit einem erwarteten maximalen Verlust von $100.000 manchmal verloren $1.000.000 oder mehr

Die VaR-Modelle basierten auf falschen Annahmen, einschließlich der folgenden:

  • Vergangene Marktveränderungen sind Vorhersage künftiger Marktveränderungen.
  • Eine normale (dünne und daher vorhersehbare) Verteilung die den prognostizierten Renditen zugrunde liegen.
Die von-Mises-Verteilung mit k=5, ähnlich einer Gauß-Verteilung, und der flacheren k=1 und k = 0,2.
Diagramm der Von-Mises-Verteilung, die bei hohem K-Wert dünnschwanz und bei niedrigem K-Wert fettschwanzbesetzt ist

Tatsächlich bestand die zugrunde liegende Verteilung oder fraktalen Elemente, was bedeutet, dass es ein viel höheres Risiko für Longtail-, extreme und vermutlich seltener auftreten, als bei einer normalen Verteilung vorhergesagt werden würde. Die Fettschwanzbewohner dass die tatsächliche Verteilung bekannt war, aber nicht umgesetzt wurde. Was war weniger gut? wie komplex und eng miteinander verknüpfte Phänomene waren, darunter computergestütztem Handel mit automatischem Ausverkauf11

Probleme mit der Zusammenfassung

Aggregierte Daten, darunter die meisten demografischen und epidemiologischen Daten unterliegen einem bestimmten Set von Fallen. Simpson's Paradox das Amalgamation-Pardox tritt in aggregierten Daten auf, wenn oder umgekehrt, wenn die Daten auf einer anderen Ebene zusammengefasst werden. und falsch verstandene kausale Zusammenhänge.

Beim ökologischen Trugschluss werden fälschlicherweise Informationen über einer Population von einer Aggregationsebene zu einer anderen Aggregationsebene, Anspruch ist möglicherweise ungültig. Eine Krankheit, von der 40% der Arbeiter in der Landwirtschaft betroffen sind eine Provinz kann nicht mit der gleichen Verbreitung in der größeren Population. Es ist auch sehr wahrscheinlich, dass es auf der ganzen Welt Landwirtschaftlich geprägte Städte in dieser Provinz, die kein ähnlich hohes Ergebnis verzeichnen Verbreitung dieser Krankheit. Von einer 40% igen Prävalenz von weniger betroffenen Menschen auch Orte wäre trügerisch.

Das modifizierbare Areal Unit Problem (MAUP) ist ein bekanntes Problem in Geodaten, beschrieben von Stan Openshaw aus dem Jahr 1984 in CATMOG 38. Abhängig von den Formen und Größen der Bereiche, Daten aggregieren, können mit Geodaten praktisch alle Korrelation zwischen Variablen in den Daten. Stimmabgabe zum Zeichnen Bezirke, die eine oder andere Partei bevorzugen, ist ein Beispiel für MAUP.

All diese Situationen beinhalten eine unangemessene Hochrechnung Aggregationsebene in ein anderes zu übertragen. Unterschiedliche Analyseebenen erfordern unter Umständen Aggregationen oder sogar völlig unterschiedliche Datasets.12

Beachten Sie, dass Zensus-, demografische und epidemiologische Daten in der Regel aus Datenschutzgründen nach Zonen zusammengefasst werden und dass diese Zonen häufig willkürlich sein, also nicht auf sinnvollen realen Grenzen basieren. Wann? mit solchen Daten arbeiten, sollten ML-Anwender prüfen, Leistung und Vorhersagen ändern sich abhängig von der Größe und Form der Zonen oder die Aggregationsebene und falls ja, ob Modellvorhersagen von einem dieser Aggregationsprobleme betroffen sind.

Verweise

Button, Katharine et al. „Stromausfall: Warum eine kleine Stichprobengröße die Zuverlässigkeit der Neurowissenschaft.“ Natur Rezensionen Neuroscience, Band 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

Kairo, Alberto. How Charts Lie: Getting Smarter about Visual Information. New York: W.W. Norton, 2019.

Davenport, Thomas H. „A Predictive Analytics Primer“. Im HBR-Leitfaden zu Daten Analytics Basics for Managers (Boston: HBR Press, 2018) 81–86.

De Langhe, Bart, Stefano Puntoni und Richard Larrick. „Linear Thinking in a Nonlinear World.“ Im HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 131–154.

Ellenberg, Jordanien. Richtig falsch liegen: Die Macht des mathematischen Denkens. New York: Pinguin, 2014.

Huff, Darrell. So lügen Sie mit Statistiken. NY: W.W. Norton, 1954.

Jonas, Ben: Datenfallen vermeiden. Hoboken, NJ: Wiley, 2020

Openshaw, Stan: „Das Problem mit den änderbaren Flächeneinheiten“, CATMOG 38 (Norwich, England: Geo Books 1984) 37.

The Risks of Financial Modeling: VaR and the Economic Meltdown, 111. Kongress (2009) (Erfahrungsberichte von Nassim N. Taleb und Richard Bookstaber).

Ritter, David. „When to Act on a Correlation, and When Not To.“ Im HBR-Leitfaden für Grundlagen der Datenanalyse für Manager (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Theodore H. und Elena A. Varavikova. Kapitel 3: Measure, Monitoring, and Evaluating the Health of a Population in The New Public Health, 3. Ed. San Diego: Academic Press, 2014, S. 91–147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny, Peter C. Verhoef und Tammo H. A. Bijmolt. „Die Bedeutung von nicht lineare Beziehungen zwischen Einstellung und Verhalten in der Politik Forschung.“ Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Bildreferenz

Basierend auf „Von Mises Distribution“. Rainald62, 2018 Quelle


  1. Ellenberg 125. 

  2. Huff 77–79. Huff zitiert das Office of Public Opinion Research von Princeton, aber hat er vielleicht schon gedacht, Bericht April 1944 vom National Opinion Research Center an der University of Denver. 

  3. Tulchinsky und Varavikova. 

  4. Gary Taubes Wissen wir wirklich, was uns gesund macht?“ im The New York Times Magazine, 16. September 2007. 

  5. Ellenberg 78. 

  6. Huff 91–92. 

  7. Huff, 93. 

  8. Jones 157–167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. Siehe die Zeugenaussage von Nassim N. Taleb und Richard Bookstaber in The Risks of Financial Modeling: VaR and the Economic Meltdown, 111. Kongress (2009) 11–67. 

  12. Cairo 155, 162.