Trappole per riflessioni

Gli esseri umani sono soggetti a pregiudizi cognitivi in quanto sono umani, ad esempio razionalizzazione e bias di conferma. Alberto Cairo scrive: "Razionalizzazione è la modalità predefinita del cervello umano".1 Molto spesso, le persone si aspettano o vogliono una un risultato specifico, quindi cerca dati o prove a sostegno di tale risultato.

Quando lavori con o valuti dati e modelli, che possono provenire da molte fonti diverse, chiedi potenziali fonti di bias. Ad esempio:

  • Chi finanzia questo modello o studio? Qual è il mercato o l'attività commerciale all'applicazione?
  • Quali tipi di incentivi esistono per le persone coinvolte nella raccolta dei dati?
  • Quali tipi di incentivi esistono per i ricercatori che addestrano il modello o alla conduzione dello studio, inclusa la pubblicazione e l'incarico?
  • Chi concede in licenza il modello o pubblica lo studio e quali sono incentivi?

Statistiche descrittive

Media (somma dei valori divisi per il numero), mediana (valore medio, quando i valori sono in ordine) e mode (valore più frequente) sono spesso utili in dare un'idea della forma del proprio set di dati. Se la mediana e la media sono lontane a parte, ad esempio, potrebbero esserci valori abbastanza estremi e asimmetrici nella per iniziare.

L'intervallo, ovvero la differenza tra il valore più alto e quello più basso. e la varianza, che è la differenza quadratica media tra ciascun valore e la media dell'insieme, forniscono anche informazioni utili sul la diffusione e la forma del set di dati.

Prima di addestrare un modello sui tuoi dati, chiedi anche se il set di dati sbilanciato e, in tal caso, se è necessario risolvere questo squilibrio.

Probabili improbabilità e valori p

Se il tempo e le opportunità sono sufficienti, l'occorrenza di una evento improbabile diventa molto probabile. Vedi i punti teorici Frode dell'intermediario di borsa a Baltimora per un possibile esempio.

In base al consenso scientifico, un risultato è considerato statisticamente significativo (e pertanto pubblicabile) quando il valore p è inferiore a 0,05. Ciò significa che esiste un <5% di probabilità che lo stesso risultato, o un altro estremo, si verifichi sotto la ipotesi nulla, cioè il risultato del caso. In modo più colloquiale, i ricercatori possono pubblicare solo se c'è una probabilità su 20 o meno che i risultati sono il risultato della casualità. In alternativa, cosa più allarmante, circa una volta ogni venti esperimenti, un risultato spurie appare come significativo, sebbene non lo sia, e gli altri diciannove risultati non saranno pubblicato. In un articolo del 2005, "Perché la maggior parte dei risultati della ricerca sono false", John Ioannidis ha esposto diversi fattori, da quelli statistici a finanziari, contribuendo alla pubblicazione di risultati falsi.

Ad esempio, visti i forti incentivi per la pubblicazione, i ricercatori a volte confondono valori p circa 0,05 per scendere al di sotto di questa soglia. Altre volte, studio pubblicato che vengono selezionati naturalmente per ottenere risultati imprevisti e insoliti, non essere replicabili (e quindi probabilmente il risultato del caso), il che ha portato a una crisi di fiducia in più campi. Inoltre, ha portato alla creazione di e organizzazioni che si dedicano a testare la riproducibilità.

Nel campo dell'ML, i modelli sono considerati all'avanguardia solo se soddisfano o superare i benchmark di valutazione della maggior parte degli altri modelli competitivi. È è possibile che si verifichino pressioni simili sui punteggi di valutazione del modello, che può essere incrementato artificialmente da perdite nei benchmark.2

I valori p possono essere utili nella selezione delle caratteristiche per i modelli di regressione. ANOVA (Analisi della varianza) è un metodo statistico che confronta la varianza all'interno dei gruppi alla varianza tra i gruppi, restituendo un Statistiche F e valore p per ciascuna caratteristica. La scelta delle caratteristiche più significative con i valori p più bassi può ridurre il numero di caratteristiche che un modello deve considerare, senza perdere molte caratteristiche predittive corrente. Questo consente di risparmiare risorse di calcolo ed evita il problema di troppe caratteristiche, di cui parleremo in una sezione successiva. Visualizza Scikit Guida alla selezione delle funzionalità per maggiori dettagli.

Il problema dei confronti multipli

Il problema della soglia di significatività è particolarmente grave nelle situazioni in cui confronti multipli con l'ipotesi nulla vengono condotti allo stesso nel tempo. Si tratta di un problema specifico per gli studi sulla risonanza magnetica (fMRI).

In una fMRI, ogni voxel (unità di volume) del cervello viene testato in modo indipendente per attività ed eventualmente evidenziati. Questo porta a qualcosa dell'ordine 100.000 test di significatività indipendenti condotti contemporaneamente. A p=0,05 soglia di significatività, la teoria statistica si aspetta circa 5.000 positivi che compaiono in una singola fMRI.3

Il problema è probabilmente illustrato al meglio da Bennett et al. nel 2009. poster, "Correlazioni neurali della prospettiva delle interspecie che prende il salmone atlantico post-mortem", che ha vinto Premio Nobel Ig. I ricercatori hanno mostrato 15 fotografie di da esseri umani in situazioni altamente emotive a un salmone morto in una macchina fMRI, chiede al salmone morto di capire quali emozioni ha l'essere umano nella foto sperimentati dagli esseri umani. Hanno individuato un cluster statisticamente significativo di voxel attivi nella cavità cerebrale del salmone e conclusi, con la lingua sulla guancia, che il salmone morto stava davvero prendendo una prospettiva. Più seriamente, i ricercatori stavano richiamando l'attenzione sul problema dei confronti multipli fMRI e situazioni simili di diagnostica per immagini e necessità di mitigazioni.

Una soluzione ovvia e granulare è abbassare la soglia del valore p che indica la significatività. Lo strumento intrinseco il compromesso è tra sensibilità (rilevamento di tutti i veri positivi) e specificità (identificazione di tutti i veri negativi). Una discussione sulla sensibilità, chiamata anche tasso di veri positivi, disponibile nel modulo Classificazione Machine Learning Crash Course.

Un'altra mitigazione è il controllo del tasso di errore relativo alle famiglie (FWER), che è la probabilità di almeno un falso positivo. Un altro controlla il tasso di falsi positivi (FDR) o la proporzione prevista di falsi positivi. a tutti i positivi. Vedi le prove in Governance e politica guida al problema dei confronti multipli, così come Lindquist e Mejia "Lo Zen e l'arte dei confronti multipli" per spiegazioni su questi metodi e alcune procedure dettagliate. Nella situazione con i salmoni morti, il controllo di FDR e FWER ha dimostrato che i voxel non c'erano, di fatto, statisticamente significativa.

L'addestramento dei modelli ML sulle scansioni della fMRI e di altri metodi di imaging sta diventando sempre più popolari sia nel campo della diagnosi medica4 che nella ricostruzione delle immagini dall'attività cerebrale.5 Se questi modelli sono addestrati su un nel set di dati, questo potrebbe ridurre la probabilità che si verifichino problemi da un problema di confronto. Tuttavia, in particolare nel campo della diagnosi, il modello può fare inferenze imprecise sulle nuove scansioni se il 20% di "attivo" voxel sono effettivamente dei falsi positivi. Si noti che la classificazione diagnostica fMRI I modelli descritti in Li e Zhao hanno un'accuratezza del 70-85% circa.

Troppe variabili nell'analisi di regressione

Il problema dei confronti multipli si estende all'analisi di regressione multipla. L'analisi di regressione o regressione lineare, è alla base di molti modelli predittivi numerici. L'analisi della regressione utilizza uno dei vari metodi, come i minimi quadrati ordinari, per trovare il coefficiente di regressione che meglio descrive l'effetto di una variabile un'altra. I ricercatori possono chiedere in che modo l'età e il fumo influiscono sui tassi di cancro al polmone che rappresenta ogni fattore come variabile in un'analisi di regressione del cancro incidenza dei fumatori e dei non fumatori di varie età. Un modello di regressione lineare funziona più o meno allo stesso modo ed è quindi molto interpretabile rispetto ad altri tipi di modelli ML. Trovare la regressione i coefficienti di queste variabili descrivono le relazioni lineari tra queste variabili e i tassi di tumore al polmone.

Si potrebbe avere la tentazione di includere tutte le possibili variabili in un'analisi di regressione, non da ultimo perché non includere un fattore critico può portare al suo contributo trascurato. Tuttavia, aggiungere troppe variabili a un'analisi di regressione aumenta le probabilità che una variabile non pertinente venga visualizzata statisticamente significativo. Se aggiungiamo alla nostra analisi diciotto variabili non pertinenti, "film guardati" e "cani posseduti", è probabile che uno di questi per puro caso, le variabili non pertinenti appariranno associate tassi di cancro ai polmoni più elevati.6

Nel contesto dell'ML, in una situazione analoga si sta aggiungendo troppe caratteristiche al modello, il che può comportare overfitting, problemi.

Inferenze e processo decisionale

Un modo per eludere alcune di queste trappole mentali è trattare le statistiche e l'ML. che derivano dalla statistica, come strumenti per prendere decisioni, piuttosto che rispondere alle domande. Questo era il posizione di Jerzy Neyman ed Egon Sharpe Pearson.7

In questo framework, dati, statistiche dei dati e derivate, compresi i modelli ML, sono i più adatti a fare previsioni probabilistiche, sfatare le affermazioni universali, migliorare e domande di ricerca e assistenza nel processo decisionale. Non sono adatti per affermazioni positive.

Secondo David Ritter, le decisioni basate sulle correlazioni di dati quantità di dati dovrebbe basarsi su due fattori:

  • "La certezza che la correlazione si ripeterà in modo affidabile in futuro", quale deve basarsi sia sulla frequenza con cui la correlazione si è verificata passato e una comprensione accurata di ciò che sta causando questa correlazione.
  • I rischi e i benefici di agire.8

Analogamente, non tutte le domande della ricerca potrebbero essere adatte all'IA. Anastassia Fedyk offre due criteri per un problema adatto all'IA:

  • Il problema richiede la previsione, non la comprensione delle relazioni causali.
  • I dati inviati all'IA contengono tutto ciò che occorre sapere problema; ovvero il problema è indipendente.9

Riferimenti

Bennett, Craig M. Alessia F. Baird, Michael B. Miller e George L. Wolford. "Correlazioni neurali della prospettiva delle interspecie con il processo post mortem Atlantic Salmon: un argomento per la correzione di confronti multipli." Neuroimage (2009).

Il Cairo, Alberto. In che modo i grafici mento: informazioni visive in modo più intelligente. Roma: O Norton, 2019.

Davenport, Thomas H. "Un'introduzione all'analisi predittiva." Nella Guida ai dati di HBR Nozioni di base di Analytics per manager (Boston: HBR Press, 2018) 81-86.

Ellenberg, Giordania. Come non sbagliare: il potere del pensiero matematico. NY: Pinguino, 2014.

Fedyk, Anastassia. "Il machine learning può risolvere il tuo problema aziendale?" In HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 111-119.

Gallo, Amy. "A Refresher on Statistical Significance" (Un aggiornamento sulla significatività statistica). Nella Guida ai dati di HBR Nozioni di base di Analytics per manager (Boston: HBR Press, 2018) 121-129.

Uff, Darrell. Come mentire sulle statistiche. NY: W.W. Norton, 1954.

Ioannidis, John P.A. "Perché la maggior parte dei risultati di una ricerca pubblicata sono false.". In PLoS Med 2 n. 8: e124.

Jones, Ben. Evitare insidie relative ai dati. Hoboken, NJ: Wiley, 2020.

Li, Jiangxue e Peize Zhao. "Applicazioni di deep learning nella fMRI - a Review Work" ICBBB 2023 (Tokyo, Giappone, 13-16 gennaio 2023): 75-80. https://doi.org/10.1145/3586139.3586150

Lindquist, Martin A. e Amanda Mejia. "Lo Zen e l'arte dei confronti multipli." Medicina psicosomatica 77 n. 2 (febbraio-marzo 2015): 114–125. doi: 10.1097/PSY.0000000000000148.

Ritter, David. "Quando agire in base a una correlazione e quando non farlo". Nella Guida HBR a Nozioni di base sull'analisi dei dati per manager (Boston: HBR Press, 2018) 103-109.

Tagaki, Yu e Shinji Nishimoto. "Ricostruzione di immagini ad alta risoluzione con modelli di diffusione latente dell'attività cerebrale umana." Conferenza IEEE/CVF 2023 su Visione artificiale e riconoscimento di pattern (Vancouver, BC, Canada, 2023): 14453-14463. doi: 10.1109/CVPR52729.2023.01389.

Wheelan, Carlo. Statistiche nude: elimina i dati dal terrore. Roma: O Norton, 2013

Zhou, Kun, Yutao Zhu, Zhipeng Chen, Wentong Chen, Wayne Xin Zhao, Xu Chen Yankai Lin, Ji-Rong Wen e Jiawei Han. "Non trasformare il tuo LLM in un cheater di un benchmark di valutazione." arXiv:2311.01964 cs.CL.


  1. Il Cairo 182. 

  2. Zhou et al.

  3. Lindquist e Mejia. 

  4. Li e Zhao 77-78. 

  5. Tagaki e Nishimoto. 

  6. Wheelan 221. 

  7. Ellenberg 159. 

  8. Ritter 104. 

  9. Fedyk 113.