Pièges d'analyse

"Tous les modèles sont incorrects, mais certains sont utiles." — George Box, 1978

Bien que puissantes, les techniques statistiques ont leurs limites. Compréhension ces limites peuvent aider un chercheur à éviter les bêtises et les allégations inexactes, comme L'affirmation de BF Skinner selon laquelle Shakespeare n'a pas utilisé plus d'allitérations que le caractère aléatoire pourrait prédire. (L'étude de Skinner était ne serait pas assez puissant1.

Barres d'incertitude et d'erreur

Il est important de spécifier l'incertitude dans votre analyse. Il est tout aussi important pour quantifier l’incertitude dans les analyses d’autres personnes. Les points de données qui apparaissent pour tracer une tendance sur un graphique, mais que leurs barres d'erreur se chevauchent, peut ne pas indiquer n’importe quel modèle. L'incertitude peut aussi être trop élevée pour dessiner utile les conclusions d'une étude ou d'un test statistique particulier. Si une étude de recherche nécessite une précision au niveau du lot, un ensemble de données géospatiales avec une incertitude de +/- 500 m a trop d’incertitude pour être utilisable.

Les niveaux d'incertitude peuvent aussi être utiles lors de la prise de décision processus. Données soutenant un traitement particulier de l'eau avec une incertitude de 20% dans les résultats peuvent déboucher sur une recommandation de mise en œuvre un suivi continu du programme pour remédier à cette incertitude.

Réseaux de neurones bayésiens peut quantifier l'incertitude en prédisant des distributions de valeurs valeurs.

Non-pertinence

Comme nous l'avons vu dans l'introduction, il y a toujours au moins un petit écart entre les données et la vérité terrain. Le professionnel avisé du ML doit déterminer jeu de données est pertinent par rapport à la question posée.

M. Huff décrit une première étude d'opinion publique qui a révélé que les Américains blancs à la question de savoir à quel point il a été facile pour les Américains noirs de faire un bon étaient directement et inversement liés à leur niveau de de la sympathie envers les Américains noirs. Avec l'augmentation de l'animation raciale, les réponses aux opportunités économiques attendues sont de plus en plus optimiste. Cela aurait pu être mal compris en tant que signe de progrès. Cependant, l'étude n'avait aucun résultat sur les les opportunités économiques sans frais aux Américains noirs à l'époque et n'était pas pour tirer des conclusions sur la réalité du marché du travail, mais seulement les opinions des personnes interrogées. Les données collectées n'était en fait pas pertinente par rapport à l'état du marché de l'emploi2.

Vous pouvez entraîner un modèle avec des données d'enquête comme celle décrite ci-dessus, où le la sortie mesure en fait l'optimisme plutôt que l'opportunité. Mais comme les opportunités prévues sont sans rapport avec les opportunités réelles, si vous que le modèle prédit des opportunités réelles, de donner une fausse image de ce que le modèle prédit.

Confusions

Une variable de confusion, une variable de confusion ou un cofacteur est une variable pas en cours d’étude que influence les variables qui sont à l'étude et peut fausser les résultats. Prenons l'exemple d'un modèle de ML qui prédit les taux de mortalité pour une entrée. pays en fonction des caractéristiques des politiques de santé publique. Supposons que la médiane l'âge n'est pas une caractéristique. Supposons également que certains pays aient un que d'autres. En ignorant la variable confondatrice de l’âge médian, ce modèle pourrait prédire des taux de mortalité par défaut.

Aux États-Unis, l'origine ethnique est souvent fortement liée à la culture , bien que seule la race, et non la classe, est enregistrée avec les données de mortalité. Les confusions liées à la classe, comme l'accès aux soins, à la nutrition, au travail dangereux, et un logement sécurisé, peuvent avoir une plus grande influence sur les taux de mortalité que la race, mais négligées, car elles ne sont pas incluses dans les ensembles de données3. et le contrôle de ces éléments est essentiel pour créer des modèles et tirer des conclusions significatives et précises.

Si un modèle est entraîné sur des données de mortalité existantes, y compris l'origine ethnique, mais pas d'une autre classe, il peut prédire la mortalité en fonction de l'origine ethnique, même si la classe est plus forte prédicteur de la mortalité. Cela pourrait entraîner des hypothèses inexactes sur la causalité et des prédictions inexactes sur la mortalité des patients. professionnels du ML doivent se demander s’il existe des confusions dans leurs données, et quelles sont peuvent manquer de variables dans leur ensemble de données.

En 1985, le groupe infirmier Health Study, une étude de cohorte observationnelle de Harvard de médecine et de la Harvard School of Public Health, ont constaté que les membres de la cohorte le traitement de substitution à base d'œstrogènes a présenté une diminution de l'incidence des crises cardiaques par rapport aux membres de la cohorte qui n'ont jamais suivi œstrogènes. En conséquence, les médecins ont prescrit des œstrogènes à leurs les patients ménopausés et postménopausés depuis des décennies, jusqu'à ce qu'une étude clinique 2002 a identifié les risques pour la santé créés par les œstrogènes de longue durée. La pratique de prescription d'œstrogènes chez les femmes ménopausées a cessé, mais pas avant d'avoir provoqué on estime à plusieurs dizaines de milliers de décès prématurés.

Plusieurs facteurs de confusion peuvent être à l'origine de l'association. Épidémiologistes trouvés que les femmes qui suivent un traitement hormonal de substitution par rapport aux femmes qui n'en ont pas, ont tendance à être plus fins, plus éduqués, plus riches, plus conscients de leur santé, et plus susceptibles de faire de l'exercice. Dans différentes études, l'éducation et la richesse étaient pour réduire le risque de maladies cardiaques. Ces effets auraient confusé la corrélation apparente entre les œstrogènes et les crises cardiaques4.

Pourcentages avec des nombres négatifs

Évitez d'utiliser des pourcentages en présence de nombres négatifs5 comme toutes sortes de les gains et les pertes significatifs peuvent être obscurcis. Partez du principe que les mathématiques, que le secteur de la restauration compte 2 millions d'emplois. Si le secteur perd millions de ces emplois fin mars 2020, n'enregistrent aucune variation nette pendant mois, et a obtenu 900 000 emplois début février 2021, d'une année sur l'autre. comparaison début mars 2021 indiquerait une perte seulement de 5% des emplois dans la restauration. En l'absence d'autres changements, comparaison d'une année sur l'autre à la fin du mois de février 2022 suggère une augmentation de 90% des emplois dans la restauration, ce qui est très différent de la réalité.

Préférez les nombres réels, normalisés si nécessaire. Reportez-vous à la section Utiliser des valeurs Cata pour en savoir plus.

Erreur post-hoc et corrélations inutilisables

L'erreur post-hoc est l'hypothèse que, comme l'événement A a été suivi par l'événement B, l'événement A a causé l'événement B. En d'autres termes, il s'agit de supposer relation de cause à effet lorsqu'elle n'existe pas. Encore plus simple: corrélations ne prouvent pas la causalité.

En plus d'une relation claire de cause à effet, les corrélations peuvent également découlent:

  • Le hasard (voir le livre de Tyler Vigen Corrélations factices pour les illustrations, y compris une forte corrélation entre le taux de divorce dans le Maine et la consommation de margarine).
  • Une relation réelle entre deux variables, bien qu'il reste difficile de savoir laquelle est causale et laquelle est affectée.
  • Une troisième cause distincte qui influe sur les deux variables, les variables corrélées ne sont pas liées entre elles. Inflation mondiale, pour par exemple, peut augmenter le prix des yachts et du céleri6.

Il est également risqué d'extrapoler une corrélation au-delà des données existantes. Huff souligne qu'un peu de pluie améliorera les cultures, mais qu'une pluie trop forte endommagera d'eux ; la relation entre les précipitations et les récoltes est non linéaire7. (Voir les deux sections suivantes pour en savoir plus sur les relations non linéaires.) Martin note que le monde est plein d'événements imprévisibles, comme la guerre et la famine, qui soumettent les prévisions futures aux données de séries temporelles d'incertitudes considérables8.

De plus, même une corrélation authentique basée sur la cause et l'effet peut ne pas être utiles pour prendre des décisions. Huff montre, par exemple, la corrélation entre la possibilité de se marier et l’éducation université dans les années 1950. Les femmes qui sont allées à à l'université étaient moins susceptibles de se marier, mais cela aurait pu être le cas que les femmes allées à l'université étaient moins enclines à se marier au départ. Si c’était le cas, les études universitaires n’ont pas modifié leur probabilité de mariage9.

Si une analyse détecte une corrélation entre deux variables d'un jeu de données, demandez:

  • De quel type de corrélation s'agit-il: cause à effet, faux, inconnu ou causée par une troisième variable ?
  • Dans quelle mesure l'extrapolation des données est-elle risquée ? Chaque prédiction de modèle sur des données dans l'ensemble de données d'entraînement est en fait une interpolation extrapolation à partir des données.
  • La corrélation peut-elle être utilisée pour prendre des décisions utiles ? Par exemple, l'optimisme peut être fortement corrélé à l'augmentation des salaires, mais analyse des sentiments d'un vaste corpus de données textuelles, comme les réseaux sociaux par les utilisateurs d'un pays donné, ne permet pas de prédire d’augmentation des salaires dans ce pays.

Lors de l'entraînement d'un modèle, les professionnels du ML recherchent généralement des caractéristiques étroitement corrélées à l'étiquette. Si la relation entre les caractéristiques et que l'étiquette n'est pas bien comprise, cela peut entraîner les problèmes décrits dans cette section, y compris des modèles basés sur de fausses corrélations et des modèles qui supposent que les tendances historiques se poursuivront à l'avenir, alors qu'en réalité ne le faites pas.

Le biais linéaire

Dans "La pensée linéaire dans un monde non linéaire." Bart de Langhe, Stefano Puntoni et Richard Larrick décrivent le biais linéaire comme la tendance du cerveau humain à s'attendre et à rechercher des relations linéaires, bien que de nombreux phénomènes sont non linéaires. La relation entre les attitudes humaines et est une courbe convexe, et non une droite. Dans un Journal des Article sur la politique de consommation cité par de Langhe et al., Jenny van Doorn et al. modélisé la relation entre les réponses concernant les de l'environnement et des réponses des achats de produits bio. Ceux avec les préoccupations les plus extrêmes pour l’environnement ont acheté plus de produits bio, mais il y avait beaucoup très peu de différence entre toutes les autres personnes interrogées.

Achats de produits bio par rapport au score de préoccupation environnementale,
  montrant une ligne principalement plate avec une courbe convexe pointue à l'extrême droite
Graphique représentant les achats naturels et le score d'inquiétude environnementale simplifié et adapté de van Doorn et al. article

Lors de la conception de modèles ou d'études, tenez compte des risques des relations. Comme les tests A/B les relations non linéaires peuvent passer à côté, pensez aussi à tester une troisième C. Déterminez également si le comportement initial qui apparaît ou linéaire continuera d'être linéaire, ou si de futures données pourraient présentent un comportement plus logarithmique ou non linéaire.

Ajustement linéaire des données logarithmiques montrant une bonne adéquation pour la première
  de la moitié des données,
et leur adéquation est de plus en plus inefficace par la suite.
Exemple de mauvais ajustement linéaire avec des données logarithmiques

Cet exemple hypothétique montre un ajustement linéaire erroné pour des données logarithmiques. Si seuls les premiers points de données étaient disponibles, il serait à la fois tentant Il est incorrect de supposer une relation linéaire continue entre les variables.

Interpolation linéaire

Examinez toute interpolation entre les points de données, car l'interpolation introduit des points fictifs, et les intervalles entre les mesures réelles présentent des fluctuations importantes. À titre d'exemple, prenons les éléments suivants : visualisation de quatre points de données reliés par des interpolations linéaires:

Amplitude au fil du temps montrant quatre points reliés par une ligne droite.
Exemple d'interpolation linéaire.

Considérons ensuite cet exemple de fluctuations entre les points de données qui sont effacés par une interpolation linéaire:

Mêmes points qu'auparavant, mais avec des fluctuations gigantesques entre les deuxième et troisième points.
Exemple de fluctuation significative (un séisme) entre des points de données.

Cet exemple est artificiel car les sismographes collectent des données continues, et donc ce tremblement de terre ne serait pas manqué. Mais il est utile pour illustrer les hypothèses émises par les interpolations et le phénomène réel que les données les praticiens pourraient manquer.

Le phénomène de Runge

le phénomène de Runge, également connu sous le nom de « agitation polynomiale », est un problème à l'opposé du spectre de l'interpolation linéaire au biais linéaire. Lors de l'ajustement d'un polynôme interpolation aux données, il est possible d'utiliser un polynôme dont le degré est trop élevé (degré, ou ordre, étant l'exposant le plus élevé de l'équation polynomiale). Ce produit des oscillations irrégulières sur les bords. Par exemple, l'application d'un interpolation polynomiale de degré 11, qui signifie que le terme d'ordre le plus élevé dans l'équation polynomiale a \(x^{11}\), avec des données à peu près linéaires, donne des prédictions très mauvaises au début et à la fin plage de données:

Plutôt linéaire
  données ajustées avec une interpolation polynomiale de degré 11, montrant une netteté
  un pic à la hausse entre les deux premiers points de données et une forte baisse
  entre les deux derniers points de données
Exemple de mouvement polynomial

Dans le contexte du ML, un phénomène analogue se produit : surapprentissage.

Échecs statistiques à détecter

Parfois, un test statistique peut être trop peu efficace pour détecter une un petit effet. Une faible puissance dans l'analyse statistique signifie une faible probabilité d'obtenir en identifiant les vrais événements, et donc un risque élevé de faux négatifs. Katherine Button et al. a écrit dans Nature : "Lorsque les études d'un domaine donné sont conçu avec une puissance de 20%, cela signifie que s'il existe 100 valeurs réelles les effets à découvrir dans ce domaine, on s'attend à ce que ces études révèlent seulement 20 d'entre elles. » Augmenter la taille de l'échantillon peut parfois aider, car conception de l’étude.

Une situation analogue en ML est le problème classification et le choix d'un seuil de classification. Si vous choisissez un seuil plus élevé, moins de faux positifs et plus de faux négatifs, alors qu'un seuil plus bas génère de faux positifs et de faux négatifs.

Outre les problèmes de puissance statistique, puisque la corrélation est conçue pour détecter des relations linéaires, des corrélations non linéaires des variables peuvent être manquées. De même, les variables peuvent être liées mais pas statistiquement corrélées. Les variables peuvent également être sont corrélées de façon négative, mais ne sont pas du tout liées. Le paradoxe de Berkson ou l'erreur de Berkson. L'exemple typique de Berkson l’erreur est la corrélation négative fausse entre tout risque et de maladies graves lorsque l'on examine la population de patients hospitalisés (comme par rapport à la population globale), ce qui découle du processus de sélection (une assez grave pour exiger une admission à l'hôpital).

Déterminez si l'une de ces situations s'applique.

Modèles obsolètes et hypothèses non valides

Même les bons modèles peuvent se dégrader avec le temps, car le comportement (et le monde, par exemple) qui comptent) peut changer. Les premiers modèles prédictifs de Netflix ont dû être supprimés leur clientèle n'est plus composée de jeunes utilisateurs chevronnés, mais d'utilisateurs plus généraux. d'utilisateurs10.

Les modèles peuvent également contenir des hypothèses silencieuses et inexactes qui peuvent rester cachées jusqu'à la défaillance catastrophique du modèle, comme le krach du marché de 2008. La les modèles de valeur à risque du secteur financier (VaR) prétendent estimer avec précision la perte maximale d'un portefeuille d'un trader, disons une perte maximale de 100 000 $ attendus 99% du temps. Mais dans les conditions anormales après le plantage, un portefeuille dont la perte maximale prévue est de 100 000 $ parfois perdu $1 000 000 ou plus.

Les modèles de VaR étaient basés sur des hypothèses erronées, y compris les suivantes:

  • Les évolutions passées du marché prédisent les évolutions futures du marché.
  • Une distribution normale (à queue fine, et donc prévisible) était des prédictions de rendement.
Distribution de von Mises avec k=5, semblable à une distribution gaussienne, et distribution plus plate k=1 et k=0,2.
Graphique de la distribution de von Mises, à queue fine en K élevé et à queue grasse en K faible.

En fait, la distribution sous-jacente était à queue grasse, "sauvage", ou fractale, ce qui signifie qu'il y avait un risque beaucoup plus élevé de longue traîne, extrêmes et supposément des événements rares que ceux qui pourraient être prédits par une distribution normale. La nature à queue grasse du la répartition réelle était bien connue, mais elle n'a pas été prise en compte. Qu'est-ce qui était moins bien ? était la complexité et le couplage fort de divers phénomènes, y compris sur ordinateur avec ventes automatiques11.

Problèmes d'agrégation

Données agrégées, qui incluent la plupart des données démographiques et épidémiologiques données, est soumis à un ensemble particulier de pièges. paradoxe de Simpson, ou paradoxe de l'association, se produit dans les données agrégées lorsque les tendances disparaissent ou s'inversent lorsque les données sont agrégées à un niveau différent, facteurs de confusion et les relations de causalité mal comprises.

L'erreur écologique implique l'extrapolation erronée d'informations sur d'une population à un niveau d'agrégation à un autre niveau d'agrégation, la revendication n'est peut-être pas valide. Une maladie qui touche 40% des travailleurs agricoles dans les régions suivantes : qu'une province peut ne pas avoir la même prévalence dans la région de la population. Il y aura aussi très probablement des exploitations agricoles isolées des villes agricoles de cette province qui n'enregistrent pas un niveau aussi élevé la prévalence de cette maladie. Supposons une prévalence de 40% chez les personnes les moins touchées serait également fallacieux.

Le problème d'unité de domaine modifiable (MAUP) est un problème bien connu dans données géospatiales, décrites par Stan Openshaw en 1984 dans CATMOG 38. En fonction de la forme et de la taille des zones utilisées pour des données globales, un professionnel des données géospatiales peut établir presque toutes les corrélation entre les variables dans les données. Vote en dessin les districts qui favorisent un parti ou un autre est un exemple de MAUP.

Toutes ces situations impliquent une extrapolation inappropriée à partir d'un seul le niveau d'agrégation à un autre. Différents niveaux d'analyse peuvent nécessiter ou même des ensembles de données entièrement différents12.

Notez que les données de recensement, démographique et épidémiologique sont généralement agrégées par zones pour des raisons de confidentialité, et que ces zones sont souvent arbitraires, c'est-à-dire basées sur des limites significatives du monde réel. Quand ? avec ce type de données, les professionnels du ML doivent vérifier si des modèles les performances et les prédictions varient en fonction de la taille et de la forme des zones ou le niveau d'agrégation, et, le cas échéant, si les prédictions du modèle sont affectés par l'un de ces problèmes d'agrégation.

Références

Button, Katharine et al. "Panne d'alimentation: pourquoi une petite taille d'échantillon sape la fiabilité des neurosciences." Nature Reviews Neuroscience, vol 14 (2013), 365-376. DOI: https://doi.org/10.1038/nrn3475

Alberto, au Caire. How Charts Lie: Getting Smarter about Visual Information NY: O.O. Norton, 2019.

Davenport, Thomas H. « A Predictive Analytics Primer ». Dans le Guide HBR des données Analytics Basics for Managers (Boston: HBR Press, 2018) 81-86.

De Langhe, Bart, Stefano Puntoni et Richard Larrick. "La pensée linéaire dans un monde non linéaire." Dans le Guide HBR sur les bases de l'analyse de données pour les responsables (Boston: HBR Press, 2018) 131 à 154.

Ellenberg, Jordanie How Not to Be PAS: The Power of Mathematical Thinking. NY: Penguin, 2014.

Huff, Darrell. Comment exploiter les statistiques ? NY: W.W. Norton, 1954.

Ben Évitez les pièges liés aux données. Hoboken, New Jersey: Wiley, 2020.

Stan, Openshaw. « Le problème d’unité de modifiable Areal », CATMOG 38 (Norwich, Angleterre: Livres de géographie 1984) 37.

The Risks of Financial Modeling: VaR and the Economic Meltdown, 111e Congrès (2009) (témoignages de Nassim N. Taleb et Richard Bookstaber).

David, Ritter. « Quand agir selon une corrélation, et quand ne pas le faire ». Dans le Guide HBR Data Analytics Basics for Managers (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Théodore H. et Elena A. Varavikova "Chapitre 3: Mesurer, surveiller et évaluer la santé d'une population" dans l'article The New Public Health, 3e édition San Diego: Academic Press, 2014, p. 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Van Doorn, Jenny, Peter C. Verhoef et Tammo H. A. Bijmolt. "L'importance de relations non linéaires entre l'attitude et le comportement dans la politique recherche." Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Référence d'image

Inspiré de "Von Mises Distribution" Rainald62, 2018. Source


  1. Ellenberg 125. 

  2. Huff 77-79. M. Huff cite le bureau de recherche d'opinion publique de Princeton, mais il a peut-être pensé au Rapport d'avril 1944 par le National Opinion Research Center de l'université de Denver. 

  3. Tulchinsky et Varavikova. 

  4. Gary Taubes, Avons-nous vraiment des notions de santé ?" publié dans The New York Times Magazine, 16 septembre 2007. 

  5. Ellenberg 78. 

  6. Huff 91-92. 

  7. Huff 93. 

  8. Jones 157-167. 

  9. Huff 95. 

  10. Davenport 84. 

  11. Voir le témoignage de Nassim N. Taleb et Richard Bookstaber dans l'article The Risks of Financial Modeling: VaR and the Economic Meltdown, 111e congrès (2009) 11-67. 

  12. 155, 162 du Caire.