Pièges à réflexion

Les êtres humains sont soumis à des préjugés cognitifs du fait de leur être humain, y compris de rationalisation et de confirmation. Alberto Cairo écrit : "Rationalisation est le mode par défaut du cerveau humain"1. Très souvent, les gens s'attendent ou veulent un résultat particulier, puis recherchez des données ou des preuves pour étayer ce résultat.

Lorsque vous travaillez avec ou évaluez des données et des modèles, sources différentes, demandez-leur quelles sont les sources potentielles de biais. Exemple :

  • Qui finance ce modèle ou cette étude ? Quel est le marché ou l'application ?
  • Quels types d'incitations existent pour les personnes impliquées dans la collecte de données ?
  • Quels types d'incitations existent pour les chercheurs qui entraînent le modèle ou mener l'étude, y compris la publication et la titularisation ?
  • Qui attribue une licence au modèle ou publie l'étude, et quelles sont leurs incitatifs ?

Statistiques descriptives

Moyenne (somme des valeurs divisée par le nombre), médiane (valeur moyenne, lorsque sont triées), et mode (valeur la plus fréquente) est souvent utile pour avoir une idée de la forme de son jeu de données. Si la médiane et la moyenne sont éloignées séparément, il peut y avoir des valeurs assez extrêmes et asymétriques dans la défini.

La plage, qui est la différence entre les valeurs les plus élevées et les plus basses et la variance, qui représente l'écart moyen au carré. entre chaque valeur et la moyenne de l'ensemble, fournissent également des informations utiles sur la la répartition et la forme du jeu de données.

Avant d'entraîner un modèle avec vos données, demandez également si l'ensemble de données déséquilibré et, le cas échéant, si ce déséquilibre doit être traité.

Improbabilités probables et p-valeurs

S'il y a suffisamment de temps et de chances, un événement improbable devient très probable. Voir la théorie Escroquerie à un boursier de Baltimore pour un exemple possible.

Par consensus scientifique, un résultat est considéré comme statistiquement pertinent (et donc publiable) lorsque la valeur p est inférieure à 0,05. Cela signifie qu'il existe < 5% de chances que le même résultat, ou un résultat plus extrême, se produise sous le hypothèse nulle, c'est-à-dire le résultat du hasard. Plus familièrement, les chercheurs ne peuvent publier que s'il y a une chance sur 20 ou moins que leurs résultats sont le résultat du hasard. Autre chose, et plus préoccupant, environ une fois sur vingt, le résultat est erroné significativement, même si ce n'est pas le cas, et les 19 autres résultats ne seront pas publiés. Dans un article de 2005, "Pourquoi la plupart des résultats de la recherche sont faux ?" John Ioannidis a présenté plusieurs facteurs, allant des statistiques financiers, contribuant ainsi à la publication de faux résultats.

Par exemple, étant donné les fortes incitations à la publication, les chercheurs fâchent parfois p-valeurs d'environ 0,05 sous ce seuil. Autres fois, une étude publiée qui sélectionnent naturellement des résultats inattendus et inhabituels, ne peuvent pas être reproductibles (et donc peut-être le résultat du hasard), ce qui a conduit à une crise de confiance dans plusieurs domaines. Elle a également conduit à la création des organisations dédiées aux tests de la reproductibilité.

Dans le domaine du ML, les modèles ne sont considérés comme avancés que s'ils répondent dépasser les benchmarks d'évaluation de la plupart des autres modèles concurrentiels. Il est Il est possible que des pressions similaires surviennent autour des scores d'évaluation du modèle, ce qui peut être artificiellement augmentée par les fuites de benchmark2.

Les p-valeurs peuvent être utiles pour sélectionner des caractéristiques dans les modèles de régression. ANOVA (Analyse de la variance) est une méthode statistique qui compare la variance au sein d'un groupe à la variance entre les groupes, en renvoyant Statistique F et valeur p pour chaque caractéristique. Le choix des caractéristiques les plus significatives, avec les p-valeurs les plus basses, peut réduire le nombre de caractéristiques qu'un modèle doit prendre en compte, sans perdre beaucoup . Cela permet d'économiser des ressources de calcul et d'éviter les problèmes liés à un trop grand nombre de caractéristiques. abordés dans une section ultérieure. Voir les scikit-learn Consultez le guide de sélection des fonctionnalités pour en savoir plus.

Problème de comparaisons multiples

Le problème du seuil de pertinence est particulièrement grave dans les cas où de multiples comparaisons avec l'hypothèse nulle en temps réel. Il s'agit d'un problème particulier pour les études IRM.

Dans une IRM, chaque voxel (unité de volume) du cerveau est testé de manière indépendante pour déterminer activité, et mis en évidence si tel est le cas. Cela conduit à quelque chose de l'ordre 100 000 tests d'importance indépendante effectués en même temps. À p = 0,05 seuil de pertinence, la théorie statistique attend environ 5 000 faux positifs dans une seule IRM3.

Le problème est probablement mieux illustré dans l'étude de 2009 de Bennett et al. poster, "Neural corrélations of interspecies perspective running the post-mortem Atlantic Salmon", qui a remporté le prix Prix Nobel Ig. Les chercheurs ont montré 15 photos de d'êtres humains dans des situations très émotionnelles à un saumon mort dans un appareil d'IRM, en demandant au saumon mort de déterminer quelles émotions l'humain sur la photo vécus par les êtres humains. Ils ont trouvé un groupe statistiquement pertinent de voxels actifs dans la cavité cérébrale du saumon et conclu, que le saumon mort était effectivement en train de prendre une perspective. Plus sérieusement, les chercheurs attiraient l'attention sur le problème de comparaisons multiples dans l'IRM et les situations d'imagerie similaire, et la nécessité de mesures correctives.

Une solution évidente à faible précision consiste à abaisser la valeur p du seuil, qui indique l'importance. Le principe le compromis est entre la sensibilité (capturer tous les vrais positifs) et la spécificité. (identification de tous les vrais négatifs). Discussion sur la sensibilité, également appelée taux de vrais positifs, dans le module de classification du cours d'initiation au machine learning.

Une autre mesure d'atténuation consiste à contrôler le taux d'erreur par famille, qui correspond à la probabilité d'au moins un faux positif. Un autre contrôle Taux de faux positifs ou proportion attendue de faux positifs à tous les positifs. Voir Evidence in Governance and Politics' Guide sur le problème des comparaisons multiples ainsi que les œuvres de Lindquist et Mejia "Zen et l'art de la comparaison multiple" pour obtenir des explications sur ces méthodes et des tutoriels. Dans cette situation avec le saumon mort, le contrôle du FDR et du FWER a montré qu'aucun voxels n'était, en fait, statistiquement pertinente.

L'entraînement de modèles de ML à l'aide d'analyses IRM et d'autres méthodes d'imagerie est de plus en plus populaire à la fois dans le domaine du diagnostic médical4 et dans la reconstruction d'images de l'activité cérébrale5.Si ces modèles sont entraînés sur un réseau dans l'ensemble de données, cela peut réduire la probabilité que des problèmes surviennent de comparaisons. Toutefois, en particulier dans le domaine du diagnostic, peut faire des inférences inexactes sur les nouvelles analyses individuelles si 20% de la valeur "active" Voxels sont en effet de faux positifs. Notez que la classification de l'IRMF les modèles décrits dans Li et Zhao présentent une précision d'environ 70 à 85 %.

Trop de variables dans l'analyse de régression

Le problème des comparaisons multiples s'étend à l'analyse de régressions multiples. Une analyse de régression régression linéaire, est au cœur de nombreux modèles prédictifs numériques. L'analyse de régression utilise l'une des nombreuses méthodes, comme les moindres carrés ordinaires, pour trouver le coefficient de régression qui décrit le mieux l'impact d'une variable une autre. Les chercheurs peuvent se demander comment l'âge et le tabagisme affectent les taux de cancer du poumon en représentant chaque facteur comme une variable dans une analyse de régression du cancer chez les fumeurs et les non-fumeurs de différents âges. Un modèle de régression linéaire fonctionne à peu près de la même manière et est donc très interprétables par rapport à d'autres types de modèles de ML. Identifier la régression de ces variables décrivent les relations linéaires entre ces variables et les taux de cancer du poumon.

Il peut être tentant d'inclure toutes les variables possibles dans une analyse de régression, notamment parce que le fait de ne pas inclure un facteur critique peut contribuer à sa contribution négligées. Cependant, ajouter trop de variables à une analyse de régression augmente les chances d'apparition statistique d'une variable non pertinente importantes. Si nous ajoutons dix-huit variables autres non pertinentes à notre analyse, comme "films regardés" et « possède des chiens », il est probable que l'un de ces les variables non pertinentes, par hasard, semblent être associées taux de cancer du poumon plus élevé6.

Dans le contexte du ML, il existe une situation analogue qui consiste à attribuer un trop grand nombre de caractéristiques ce qui peut entraîner surapprentissage entre autres problèmes.

Inférences et prise de décision

Pour éviter certains de ces pièges, vous pouvez traiter les statistiques et le ML les modèles, qui sont issus de statistiques, comme outils de prise de décision, plutôt que de répondre à des questions. Il s'agit de la poste pris par Jerzy Neyman et Egon Sharpe Pearson7.

Dans ce cadre, les données, les statistiques sur les données et les dérivées, y compris les modèles de ML, sont les plus adaptés pour réaliser des prédictions probabilistes, réfuter des déclarations universelles, améliorer et se concentrer les questions de recherche et l'aide à la prise de décision. Elles ne sont pas adaptées d'affirmer la vérité.

Selon David Ritter, les décisions basées sur des corrélations les quantités de données doivent être fondées sur deux facteurs:

  • « Confiance que la corrélation se reproduise de manière fiable à l'avenir » lequel doit être basée à la fois sur la fréquence à laquelle cette corrélation s'est produite et une compréhension précise de la cause de cette corrélation.
  • Les risques et les avantages d'agir8

De même, toutes les questions de recherche ne sont pas forcément adaptées à l'IA. Anastassie Fedyk propose deux critères de résolution d'un problème adapté à l'IA:

  • Le problème nécessite une prédiction, et non une compréhension des relations de causalité.
  • Les données transmises à l'IA contiennent tout ce qu'il faut savoir sur la problème ; Autrement dit, le problème est autonome9.

Références

Bennett, Craig M., Abigail A. Baird, Michael B. Miller et George L. Wolford. ""corrélations neuronales de la perspective inter-espèces prenant en compte le post-mortem" Salmon atlantique: un argument pour corriger des comparaisons multiples. Neuroimage (2009).

Alberto, au Caire. How Charts Lie: Getting Smarter about Visual Information NY: O.O. Norton, 2019.

Davenport, Thomas H. « A Predictive Analytics Primer ». Dans le Guide HBR des données Analytics Basics for Managers (Boston: HBR Press, 2018) 81-86.

Ellenberg, Jordanie. How Not to Be Problem: The Power of Mathematical Thinking (Comment ne pas être erroné : le pouvoir de la pensée mathématique). NY: Penguin, 2014.

Fedyk, Anastassia. "Le machine learning peut-il résoudre votre problème métier ?" Dans HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 111-119.

Gallo, Amy. « A rappel on Statistical Significance ». Dans le Guide HBR des données Analytics Basics for Managers (Boston: HBR Press, 2018) 121-129.

Huff, Darrell. Comment exploiter les statistiques ? NY: W.W. Norton, 1954.

Ioannidis, John P.A. "Why Most Publish Research Findings Are False.". Dans PLoS Med 2 n° 2 8: e124.

Ben Évitez les pièges liés aux données. Hoboken, New Jersey: Wiley, 2020.

Li, Jiangxue et Peize Zhao. "Deep learning applications in fMRI – a Review Work" ICBBB 2023 (Tokyo, Japon, 13-16 janvier 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. et Amanda Mejia. "Zen et l'art de la comparaison multiple." Psychosomatic Medicine 77 n° 2 (févr.-mars 2015): 114–125. doi: 10.1097/PSY.0000000000000148.

David, Ritter. « Quand agir selon une corrélation, et quand ne pas le faire ». Dans le Guide HBR Data Analytics Basics for Managers (Boston: HBR Press, 2018) 103-109.

Tagaki, Yu et Shinji Nishimoto. "Reconstitution d'images haute résolution à l'aide de modèles de diffusion latente issus de l'activité du cerveau humain." Conférence IEEE/CVF 2023 sur Vision par ordinateur et reconnaissance de modèles (Vancouver, Colombie-Britannique, Canada, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

Charles, Wheelan. Naked Statistics: Supprimer la peur des données. NY: O.O. Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen, Yankai Lin, Ji-Rong Wen et Jiawei Han. "Don't Make Your LLM an Evaluation Benchmark Benchmark cheater." arXiv:2311.01964 cs.CL.


  1. Le Caire 182. 

  2. Zhou et al.

  3. Lindquist et Mejia. 

  4. Li et Zhao 77 à 78. 

  5. Tagaki et Nishimoto. 

  6. Wheelan 221. 

  7. Ellenberg 159. 

  8. Mes premiers pas avec Ritter. 

  9. Fedyk 113.