Pièges à réflexion

Les êtres humains sont soumis à des préjugés cognitifs du fait de leur être humain, y compris de rationalisation et de confirmation. Alberto Cairo écrit : "La rationalisation est le mode par défaut du cerveau humain."1 Très souvent, les gens s'attendent ou veulent obtenir un résultat particulier, puis recherchent des données ou des preuves pour étayer ce résultat.

Lorsque vous travaillez avec ou évaluez des données et des modèles, sources différentes, demandez-leur quelles sont les sources potentielles de biais. Exemple :

  • Qui finance ce modèle ou cette étude ? Quelle est l'application commerciale ou de marché ?
  • Quels types d'incitations existent pour les personnes impliquées dans la collecte de données ?
  • Quels types d'incitations existent pour les chercheurs qui entraînent le modèle ou mènent l'étude, y compris la publication et la titularisation ?
  • Qui délivre la licence du modèle ou publie l'étude, et quelles sont ses motivations ?

Statistiques descriptives

Moyenne (somme des valeurs divisée par le nombre), médiane (valeur moyenne, lorsque sont triées), et mode (valeur la plus fréquente) est souvent utile d’avoir une idée de la forme de son jeu de données. Par exemple, si la médiane et la moyenne sont très éloignées, il est possible que l'ensemble contienne des valeurs assez extrêmes et asymétriques.

La plage, qui est la différence entre les valeurs les plus élevées et les plus basses et la variance, qui représente l'écart moyen au carré. entre chaque valeur et la moyenne de l'ensemble, fournissent également des informations utiles sur la la répartition et la forme du jeu de données.

Avant d'entraîner un modèle sur vos données, demandez-vous également si l'ensemble de données est déséquilibré et, le cas échéant, si ce déséquilibre doit être corrigé.

Improbabilités probables et valeurs p

S'il y a suffisamment de temps et de chances, un événement improbable devient très probable. Voir la théorie Escroquerie à un boursier de Baltimore pour un exemple possible.

Par consensus scientifique, un résultat est considéré comme statistiquement pertinent (et donc publiable) lorsque la valeur p est inférieure à 0,05. Cela signifie qu'il existe < 5% de chances que le même résultat, ou un résultat plus extrême, se produise sous le hypothèse nulle, c'est-à-dire le résultat du hasard. En termes plus courants, les chercheurs ne peuvent publier que s'il y a une chance sur 20 ou moins que leurs résultats soient le résultat du hasard. Autre chose, et plus préoccupant, environ une fois sur vingt, le résultat est erroné significativement, même si ce n'est pas le cas, et les 19 autres résultats ne seront pas publiés. Dans un article de 2005, "Pourquoi la plupart des résultats de la recherche sont faux ?" John Ioannidis a présenté plusieurs facteurs, allant des statistiques financiers, contribuant ainsi à la publication de faux résultats.

Par exemple, compte tenu des fortes incitations à publier, les chercheurs falsifient parfois les valeurs p autour de 0,05 pour qu'elles soient inférieures à ce seuil. D'autres fois, une étude publiée qui sélectionnent naturellement des résultats inattendus et inhabituels, ne peuvent pas être reproductibles (et donc peut-être le résultat du hasard), ce qui a conduit à une crise de confiance dans plusieurs domaines. Cela a également conduit à la création d'organisations dédiées aux tests de reproductibilité.

Dans le domaine du ML, les modèles ne sont considérés comme de pointe que s'ils atteignent ou dépassent les critères d'évaluation de la plupart des autres modèles concurrents. Il est Il est possible que des pressions similaires surviennent autour des scores d'évaluation du modèle, ce qui peut être artificiellement augmentée par les fuites de benchmark2.

Les valeurs p peuvent être utiles pour la sélection des caractéristiques des modèles de régression. ANOVA (Analyse de la variance) est une méthode statistique qui compare la variance au sein d'un groupe à la variance entre les groupes, en renvoyant Statistique F et valeur p pour chaque caractéristique. Le choix des caractéristiques les plus significatives, avec les p-valeurs les plus basses, peut réduire le nombre de caractéristiques qu'un modèle doit prendre en compte, sans perdre beaucoup . Cela permet d'économiser des ressources de calcul et d'éviter les problèmes liés à un trop grand nombre de caractéristiques. abordés dans une section ultérieure. Pour en savoir plus, consultez le guide de sélection des caractéristiques de scikit.

Problème de comparaisons multiples

Le problème du seuil de signification est particulièrement grave dans les situations où plusieurs comparaisons avec l'hypothèse nulle sont effectuées en même temps. C'est un problème particulier pour les études IRMf.

Dans une IRMf, chaque voxel (unité de volume) du cerveau est testé indépendamment pour détecter une activité statistiquement pertinente et est mis en évidence le cas échéant. Cela conduit à environ 100 000 tests de pertinence indépendants effectués en même temps. À p = 0,05 seuil de pertinence, la théorie statistique attend environ 5 000 faux positifs dans une seule IRM3.

Le problème est probablement mieux illustré dans l'étude de 2009 de Bennett et al. poster, "Neural corrélations of interspecies perspective running the post-mortem Atlantic Salmon", qui a remporté le prix Prix Nobel de Google. Les chercheurs ont montré 15 photos de d'êtres humains dans des situations très émotionnelles à un saumon mort dans un appareil d'IRM, en demandant au saumon mort de déterminer quelles émotions l'humain sur la photo vécus par les êtres humains. Ils ont trouvé un groupe statistiquement pertinent de voxels actifs dans la cavité cérébrale du saumon et conclu, que le saumon mort était effectivement en train de prendre une perspective. Plus sérieusement, les chercheurs attiraient l'attention sur le problème de comparaisons multiples dans l'IRM et les situations d'imagerie similaire, et la nécessité de mesures correctives.

Une solution évidente à faible précision consiste à abaisser la valeur p du seuil, qui indique l'importance. Le principe le compromis est entre la sensibilité (capturer tous les vrais positifs) et la spécificité. (identification de tous les vrais négatifs). Pour en savoir plus sur la sensibilité, également appelée taux de vrais positifs, consultez le module de classification du cours d'initiation au machine learning.

Une autre atténuation consiste à contrôler le taux d'erreur par famille (FWER), qui correspond à la probabilité d'au moins un faux positif. Un autre contrôle pour le taux de fausses découvertes (FDR) ou la proportion attendue de faux à tous les positifs. Voir Evidence in Governance and Politics' Guide sur le problème des comparaisons multiples ainsi que les œuvres de Lindquist et Mejia "Zen et l'art de la comparaison multiple" pour obtenir des explications sur ces méthodes et des tutoriels. Dans cette situation avec le saumon mort, le contrôle du FDR et du FWER a montré qu'aucun voxels n'était, en fait, statistiquement pertinente.

L'entraînement de modèles de ML sur des scans issus de l'IRMf et d'autres méthodes d'imagerie est de plus en plus populaire à la fois dans le domaine du diagnostic médical4 et dans la reconstruction d'images à partir de l'activité cérébrale5. Si ces modèles sont entraînés sur un ensemble de données suffisamment volumineux, cela peut réduire la probabilité de problèmes liés au problème de comparaisons multiples. Toutefois, en particulier dans le domaine du diagnostic, le modèle peut tirer des inférences inexactes sur de nouvelles scans individuelles si 20 % des voxels "actifs" sont en réalité des faux positifs. Notez que les modèles de classification IRMf diagnostic décrits dans Li et Zhao ont une précision d'environ 70 à 85 %.

Trop de variables dans l'analyse de régression

Le problème des comparaisons multiples s'étend à l'analyse de régressions multiples. Une analyse de régression régression linéaire, est au cœur de nombreux modèles prédictifs numériques. L'analyse de régression utilise l'une des nombreuses méthodes, comme les moindres carrés ordinaires, pour trouver le coefficient de régression qui décrit le mieux l'impact d'une variable une autre. Les chercheurs peuvent se demander comment l'âge et le tabagisme affectent les taux de cancer du poumon en représentant chaque facteur comme une variable dans une analyse de régression du cancer chez les fumeurs et les non-fumeurs de différents âges. Un modèle de régression linéaire fonctionne à peu près de la même manière et est donc très interprétables par rapport à d'autres types de modèles de ML. Trouver les coefficients de régression de ces variables permettra de décrire les relations linéaires entre ces variables et les taux de cancer du poumon.

Il peut être tentant d'inclure toutes les variables possibles dans une analyse de régression, en particulier parce que ne pas inclure un facteur critique peut entraîner l'oubli de sa contribution. Toutefois, ajouter trop de variables à une analyse de régression augmente la probabilité qu'une variable non pertinente apparaisse comme statistiquement significative. Si nous ajoutons encore 18 variables non pertinentes à notre analyse, comme "films regardés" et "chiens possédés", il est probable qu'une de ces variables non pertinentes, par pur hasard, semble être associée à des taux de cancer du poumon plus élevés.6

Dans le contexte du ML, la situation analogue consiste à fournir trop de caractéristiques au modèle, ce qui peut entraîner une sur-adaptation, entre autres problèmes.

Inférences et prise de décision

Pour éviter certains de ces pièges, vous pouvez traiter les statistiques et le ML les modèles, qui sont issus de statistiques, comme outils de prise de décision, plutôt que de répondre à des questions. Il s'agit de la poste pris par Jerzy Neyman et Egon Sharpe Pearson7.

Dans ce cadre, les données, les statistiques sur les données et les dérivées, y compris les modèles de ML, sont les plus adaptés pour effectuer des prédictions probabilistes, réfuter des énoncés universels, améliorer et focaliser les questions de recherche, et aider à la prise de décision. Elles ne sont pas adaptées d'affirmer la vérité.

Selon David Ritter, les décisions basées sur des corrélations issues de quantités de données même gigantesques doivent reposer sur deux facteurs :

  • "Confiance que la corrélation se reproduira de manière fiable à l'avenir", qui doit être basée à la fois sur la fréquence à laquelle cette corrélation s'est produite par le passé et sur une compréhension précise de ce qui en est la cause.
  • Les risques et les avantages d'agir8

De même, toutes les questions de recherche ne sont pas adaptées à l'IA. Anastassie Fedyk propose deux critères de résolution d'un problème adapté à l'IA:

  • Le problème nécessite une prédiction, et non une compréhension des relations causales.
  • Les données transmises à l'IA contiennent tout ce qu'il faut savoir sur la problème ; Autrement dit, le problème est autonome9.

Références

Bennett, Craig M., Abigail A. Baird, Michael B. Miller et George L. Wolford. "Corrélats neuronaux de la prise de perspective interspécifique chez le saumon atlantique post-mortem : argument en faveur de la correction de plusieurs comparaisons." Neuroimage (2009).

Cairo, Alberto. How Charts Lie: Getting Smarter about Visual Information NY : W.W. Norton, 2019.

Davenport, Thomas H. "A Predictive Analytics Primer" (Présentation de l'analyse prédictive). Dans le Guide HBR sur les principes de base de l'analyse de données pour les responsables (Boston : HBR Press, 2018), p. 81-86.

Ellenberg, Jordanie. How Not to Be Wrong: The Power of Mathematical Thinking NY: Penguin, 2014.

Fedyk, Anastassia. "Le machine learning peut-il résoudre votre problème métier ?" Dans HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 111-119.

Gallo, Amy. « A rappel on Statistical Significance ». Dans le Guide HBR des données Analytics Basics for Managers (Boston: HBR Press, 2018) 121-129.

Huff, Darrell. How to Lie with Statistics. NY : W.W. Norton, 1954.

Ioannidis, John P.A. "Why Most Publish Research Findings Are False.". Dans PLoS Med 2 n° 2 8: e124.

Ben Évitez les pièges liés aux données. Hoboken, NJ : Wiley, 2020.

Li, Jiangxue et Peize Zhao. "Deep learning applications in fMRI – a Review Work" ICBBB 2023 (Tokyo, Japon, 13-16 janvier 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. et Amanda Mejia. "Zen et l'art de la comparaison multiple." Psychosomatic Medicine 77, n° 2 (février-mars 2015) : 114-125. doi : 10.1097/PSY.0000000000000148.

Ritter, David. "When to Act on a Correlation, and When Not To" (Quand agir en fonction d'une corrélation et quand ne pas le faire) Dans le Guide HBR sur les principes de base de l'analyse de données pour les responsables (Boston, HBR Press, 2018), p. 103-109.

Tagaki, Yu et Shinji Nishimoto. "Reconstitution d'images haute résolution à l'aide de modèles de diffusion latente issus de l'activité du cerveau humain." 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (Vancouver, BC, Canada, 2023) : 14453-14463. doi : 10.1109/CVPR52729.2023.01389.

Wheelan, Charles. Naked Statistics: Stripping the Dread from the Data NY: W.W. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen et Jiawei Han. "Don't Make Your LLM an Evaluation Benchmark Benchmark cheater." arXiv:2311.01964 cs.CL.


  1. Le Caire 182. 

  2. Zhou et al. 

  3. Lindquist et Mejia. 

  4. Li et Zhao 77 à 78. 

  5. Tagaki et Nishimoto. 

  6. Wheelan 221. 

  7. Ellenberg 159. 

  8. Mes premiers pas avec Ritter. 

  9. Fedyk 113.