Trappole per analisi

"Tutti i modelli sono sbagliati, ma alcuni sono utili." - George Box, 1978

Sebbene le tecniche statistiche più potenti abbiano i loro limiti. Comprensione queste limitazioni possono aiutare i ricercatori a evitare gaffe e affermazioni imprecise, come L'affermazione di BF Skinner secondo cui Shakespeare non ha usato l'aliterazione più di la casualità. (Lo studio di Skinner sottopotente.1)

Incertezza e barre di errore

È importante specificare il livello di incertezza nell'analisi. È altrettanto importante per quantificare l'incertezza nelle analisi di altri utenti. Punti dati visualizzati per tracciare una tendenza su un grafico, ma avere barre di errore sovrapposte, questo potrebbe non indicare a qualsiasi schema. L'incertezza potrebbe essere troppo elevata per risultare utile conclusioni da un particolare studio o test statistico. Se uno studio di ricerca richiede una precisione a livello di lotto, un set di dati geospaziale con +/- 500 m di incertezza ha un'incertezza eccessiva per poter essere usata.

I livelli di incertezza possono invece essere utili durante il processo decisionale i processi di machine learning. I dati a supporto di un particolare trattamento delle acque con il 20% di incertezza nella i risultati possono portare a una raccomandazione per l'implementazione dell'acqua con un monitoraggio costante del programma per risolvere questo tipo di incertezza.

Reti neurali di bayesian può quantificare l'incertezza prevedendo le distribuzioni dei valori invece che i singoli e i relativi valori.

Non pertinente

Come discusso nell'introduzione, c'è sempre almeno un piccolo divario tra dati e dati empirici reali. Il professionista esperto di ML deve stabilire se sia pertinente alla domanda posta.

Huff descrive un primo studio dell'opinione pubblica che ha rivelato che i bianchi americani risposte alla domanda su quanto sia stato facile per i neri americani realizzare una buona che vivevano era direttamente e inversamente correlato al loro livello compassione per i neri americani. Con l'aumento dell'animus razziale, le risposte sulle opportunità economiche previste sono diventate sempre più ottimista. Questo potrebbe essere stato frainteso come un segno di progresso. Tuttavia, lo studio non potrebbe mostrare nulla sugli effettivi le opportunità economiche disponibili per i neri americani e non era adatto per trarre conclusioni sulla realtà del mercato del lavoro, solo le opinioni degli intervistati. I dati raccolti di fatto non era pertinente allo stato del mercato del lavoro.2

Potresti addestrare un modello sui dati di un sondaggio come quello descritto sopra, dove l'output misura effettivamente l'ottimismo piuttosto che l'opportunità. Ma poiché Le opportunità previste sono irrilevanti rispetto alle opportunità effettive, se affermava che il modello prevedeva opportunità effettive, rappresentare in modo ingannevole ciò che il modello prevede.

Confusione

Una variabile confondente, confondata o cofattore è una variabile non è oggetto di uno studio influisce sulle variabili analizzate e potrebbe distorcere i risultati. Ad esempio, considera un modello di ML che prevede i tassi di mortalità per un input in base alle caratteristiche delle norme relative alla salute pubblica. Supponiamo che la mediana l'età non è una caratteristica. Supponiamo inoltre che in alcuni paesi sia stata data popolazione rispetto ad altre. Ignorando la variabile confusa dell'età mediana, questo modello potrebbe prevedere tassi di mortalità difettosi.

Negli Stati Uniti, il gruppo etnico è spesso strettamente correlato la classe, sebbene solo il gruppo etnico, non la classe, viene registrata con i dati sulla mortalità. Contenuti di confusione legati alla classe, come l'accesso a sanità, alimentazione, lavori pericolosi, e alloggi sicuri, possono avere un'influenza maggiore sui tassi di mortalità rispetto alla razza, ma essere trascurate perché non sono incluse nei set di dati.3 L'identificazione e controllare questi elementi di confusione è fondamentale per creare modelli e trarre conclusioni significative e accurate.

Se un modello viene addestrato sui dati esistenti sulla mortalità, inclusi il gruppo etnico, ma non può prevedere la mortalità in base al gruppo etnico, anche se la classe è più fattore predittivo di mortalità. Ciò potrebbe far nascere ipotesi imprecise causalità e previsioni imprecise sulla mortalità dei pazienti. Professionisti di ML dovrebbero chiedere se esistono dei dati poco chiari e quali sono i concetti potrebbero mancare dal set di dati.

Nel 1985, The Nurses' Health Study, uno studio di coorte osservazionale condotto da Harvard Medical School e Harvard School of Public Health hanno scoperto che i membri della coorte che assumeva la terapia sostitutiva estrogenica ha avuto una minore incidenza di attacchi di cuore rispetto ai membri della coorte che non hanno mai preso estrogeno. Di conseguenza, i medici hanno prescritto estrogeno ai loro pazienti in menopausa e postmenopausa per decenni, fino a uno studio clinico in 2002 ha identificato i rischi per la salute causati dalla terapia estrogenica a lungo termine. La pratica della prescrizione di estrogeno alle donne in post-menopausa si è interrotta, ma non prima di si stimano decine di migliaia di morti premature.

L'associazione potrebbe essere stata causata da molteplici elementi di confusione. Epidemiologi ritrovati che le donne che assumono una terapia ormonale sostitutiva, rispetto a quelle che non la assumono, tendono a essere più magri, più istruiti, più ricchi e più attenti alla loro salute, e più propensi ad allenarsi. In diversi studi, l'istruzione e la ricchezza erano che riducono il rischio di disturbi cardiaci. Quegli effetti avrebbero confuso l'apparente correlazione tra terapia estrogenica e attacchi di cuore.4

Percentuali con numeri negativi

Evita di usare le percentuali quando sono presenti numeri negativi,5 in quanto tutti i tipi di i guadagni e le perdite significative possono essere nascosti. Supponiamo, ai fini della semplicità matematica, secondo cui il settore della ristorazione ha 2 milioni di posti di lavoro. Se il settore perde 1 di questi posti di lavoro alla fine di marzo 2020, non ha registrato variazioni nette mesi e ha guadagnato 900.000 posti di lavoro all'inizio di febbraio 2021, su base annua un confronto all'inizio di marzo 2021 suggerisce una perdita di solo il 5% dei posti di lavoro nei ristoranti. Ipotizzando altre variazioni, un confronto su base annua alla fine di febbraio Il 2022 suggerirebbe un aumento del 90% dei posti di lavoro nei ristoranti, il che è un un'immagine della realtà.

Prediligi i numeri effettivi, normalizzati in base alle tue esigenze. Consulta l'articolo sull'utilizzo dei valori numerici. Cata per saperne di più.

Fallacia a posteriori e correlazioni inutilizzabili

L'errore post-hoc è il presupposto che, poiché l'evento A è stato seguito da l'evento B, l'evento A ha causato l'evento B. In parole povere, si presume che rapporto causa-effetto laddove non ne esista una. Ancora più semplice: le correlazioni non ne dimostrano la causa.

Oltre a una chiara relazione causa-effetto, le correlazioni possono anche derivano da:

  • Pura casualità (vedi il libro di Correlazioni spurie per le illustrazioni, inclusa una forte correlazione tra il tasso di divorzi nel Maine e il consumo di margarina).
  • Una reale relazione tra due variabili, sebbene non sia chiaro quale causale e quale è interessata.
  • Una terza causa separata che influenza entrambe le variabili, sebbene non sono correlate tra loro. Inflazione globale, per ad esempio, può aumentare i prezzi degli yacht e del sedano.6

È inoltre rischioso estrapolare una correlazione dopo i dati esistenti. Uff indica che un po' di pioggia migliorerà i raccolti, ma che troppa pioggia danneggia che li rappresentano: la relazione tra i risultati delle precipitazioni e delle colture non è lineare.7 (Vedi nelle due sezioni successive per ulteriori informazioni sulle relazioni non lineari. Gianni nota che il mondo è pieno di eventi imprevedibili, come guerre e carestie, che sottopongono le previsioni future dei dati delle serie temporali un'enorme quantità di incertezza.8

Inoltre, anche una correlazione reale basata su causa ed effetto potrebbe non essere utili per prendere decisioni. Huff fornisce, ad esempio, la correlazione tra il matrimonio e l'istruzione università negli anni '50. Donne che hanno visitato gli studenti universitari erano meno inclini a sposarsi, ma poteva essere così le donne che andavano all'università erano meno inclini al matrimonio all'inizio. In questo caso, gli studi universitari non hanno modificato la loro probabilità di sposarsi.9

Se un'analisi rileva una correlazione tra due variabili in un set di dati, chiedi:

  • Che tipo di correlazione è: causa-effetto, spurie, sconosciuta o da una terza variabile?
  • Quanto è rischiosa l'estrapolazione dai dati? Ogni previsione del modello sui dati non nel set di dati di addestramento è, di fatto, interpolazione o estrapolando i dati.
  • La correlazione può essere utilizzata per prendere decisioni utili? Ad esempio: l'ottimismo potrebbe essere fortemente correlato all'aumento dei salari, ma analisi del sentiment di alcuni grandi corpus di dati di testo, ad esempio i social media post degli utenti di un determinato paese, non sarebbe utile prevedere dell'aumento dei salari in quel paese.

Durante l'addestramento di un modello, i professionisti del ML di solito cercano caratteristiche Sono strettamente correlati all'etichetta. Se la relazione tra le caratteristiche se l'etichetta non è ben compresa, si potrebbero avere In questa sezione, inclusi modelli basati su correlazioni spurie e modelli ipotizzando che le tendenze storiche continueranno a esistere in futuro, mentre in realtà non fare.

Il bias lineare

Nella "Linear Thinking in a Nonlinear World" Bart de Langhe, Stefano Puntoni e Richard Larrick descrivono il bias lineare come la tendenza del cervello umano ad aspettarsi e cercare relazioni lineari, sebbene molti fenomeni non sono lineari. Il rapporto tra atteggiamenti umani e del tipo, ad esempio, è una curva convessa e non una linea. In un rivista del 2007 articolo sulle norme relative ai consumatori citato da de Langhe et al., Jenny van Doorn et al. ha modellato la relazione tra gli intervistati del sondaggio preoccupazione per il dell'ambiente di lavoro e lo stato acquisti di prodotti biologici. Quelli con le preoccupazioni più estreme per l'ambiente hanno comprato più prodotti biologici, ma c'era molto una piccola differenza tra tutti gli altri intervistati.

Confronto tra acquisti di prodotti biologici e punteggio di preoccupazione ambientale.
  che mostra una linea prevalentemente piatta con una curva convessa e appuntita verso l'alto all'estrema destra
Grafico degli acquisti organici rispetto al punteggio della preoccupazione ambientale semplificata e adattato da van Doorn et al. documento

Quando si progettano modelli o studi, considera la possibilità di modelli non lineari relazioni. Poiché i test A/B potrebbero perdere relazioni non lineari, valuta anche la possibilità di testare una terza , C. Considera inoltre se il comportamento iniziale appare continuerà a essere lineare o se i dati futuri potrebbero mostrano comportamenti più logaritmici o altri comportamenti non lineari.

Un adattamento lineare per i dati logaritmici che mostra un buon adattamento per il primo
  metà dei dati e poi diventa sempre più scadente.
Esempio di adattamento lineare non adeguato ai dati logaritmici

Questo esempio ipotetico mostra un adattamento lineare errato per i dati logaritmici. Se fossero disponibili solo i primi punti dati, la tentazione e sbagliato nel presupporre una relazione lineare continua tra le variabili.

Interpolazione lineare

Esaminare eventuali interpolazioni tra punti dati, poiché l'interpolazione introduce punti fittizi e gli intervalli tra misurazioni reali possono contenere fluttuazioni significative. Ad esempio, considera quanto segue: Visualizzazione di quattro punti dati collegati da interpolazioni lineari:

Ampiezza nel tempo che mostra quattro punti collegati da una linea retta.
Esempio di interpolazione lineare.

Quindi considera questo esempio di fluttuazioni tra i punti dati che sono cancellato da un'interpolazione lineare:

Gli stessi punti di prima, ma con fluttuazioni gigantesche tra il secondo e il terzo punto.
Esempio di fluttuazione significativa (un terremoto) tra punti dati.

L'esempio è inventato perché i sismografi raccolgono dati continui. da non perdere questo terremoto. Tuttavia, è utile per illustrare ipotesi fatte dalle interpolazioni e i fenomeni reali che i dati ma non i professionisti del settore.

Fenomeno di Runge

Anche il fenomeno di Runge nota come "variazione polinomiale", c'è un problema all'estremità opposta lo spettro da interpolazione lineare e bias lineare. Per adattare un polinomio dell'interpolazione ai dati, è possibile usare un polinomio con un grado (grado o ordine, ovvero l'esponente massimo nell'equazione polinomiale). Questo produce strane oscillazioni ai bordi. Ad esempio, l'applicazione di l'interpolazione polinomiale di grado 11, il che significa che il termine di ordine più alto in l'equazione polinomiale ha \(x^{11}\), in dati più o meno lineari, previsioni notevolmente errate all'inizio e alla fine di dati:

Abbastanza lineare
  dotati di un'interpolazione polinomiale di grado 11, che mostra una
  un picco verso l'alto tra i primi due punti dati e un netto picco verso il basso
  tra gli ultimi due punti dati
Esempio di oscillazione dei polinomi

Nel contesto dell'ML, un fenomeno analogo è overfitting.

Errori statistici da rilevare

A volte un test statistico potrebbe essere troppo sottodimensionato per rilevare una piccolo effetto. Una bassa potenza nell'analisi statistica significa una bassa probabilità di identificando eventi veri e, di conseguenza, con un'elevata probabilità di falsi negativi. Katherine Button et al. scrisse in Nature: "Quando gli studi in un determinato campo vengono progettato con una potenza del 20%, significa che se ci sono 100 degli effetti disponibili in quel campo, ci si aspetta che questi studi scoprano solo 20". Aumentare la dimensione del campione a volte può aiutare, la progettazione dello studio.

Una situazione analoga nel ML è il problema classification e la scelta della soglia di classificazione. Se si sceglie una soglia più alta, meno falsi positivi e più falsi negativi, mentre una soglia più bassa genera in più falsi positivi e meno falsi negativi.

Oltre ai problemi di potenza statistica, poiché la correlazione è progettato per rilevare relazioni lineari, correlazioni non lineari possono mancare. Analogamente, le variabili possono essere correlate altri ma non statisticamente correlati. Le variabili possono essere correlati negativamente ma completamente non correlati, nel cosiddetto Il paradosso di Berkson o l'inganno di Berkson. Il classico esempio del l'inganno è la correlazione negativa spuria tra qualsiasi rischio e una patologia grave quando si guarda una popolazione ospedaliera ricoverata (ad esempio rispetto alla popolazione generale), che deriva dal processo di selezione (una grave tale da richiedere il ricovero ospedaliero).

Valuta se una di queste situazioni si applica al tuo caso.

Modelli obsoleti e ipotesi non valide

Anche i modelli di buona qualità possono peggiorare nel tempo perché il comportamento (e il mondo, per importanti) potrebbero cambiare. I primi modelli predittivi di Netflix hanno dovuto essere ritirati la base clienti è passata da giovani esperti di tecnologia a popolazione.10

I modelli possono anche contenere ipotesi silenziose e imprecise che potrebbero rimanere nascoste fino al catastrofico fallimento del modello, come nel crollo di mercato del 2008. La i modelli Value at Risk (VaR) del settore finanziario affermati di stimare con precisione la perdita massima sul portafoglio di qualsiasi commerciante, diciamo una perdita massima Previsti $ 100.000 il 99% delle volte. Ma in condizioni anomale dell'arresto anomalo, un portafoglio con una perdita massima prevista di $ 100.000 a volte perdersi Più di $ 1.000.000.

I modelli di VaR si basavano su ipotesi errate, tra cui:

  • I cambiamenti passati del mercato sono predittivi di quelli futuri.
  • Una distribuzione normale (a coda sottile e quindi prevedibile) alla base dei risultati previsti.
La distribuzione di von Mises con k=5, simile a una distribuzione gaussiana, e la più piatta k=1 e k=0.2.
Grafico della distribuzione di von Mises, con coda sottile a K alto e coda grassa a K basso.

Infatti, la distribuzione di base era "selvatica" o frattale, il che significa che c'era un rischio molto maggiore di long-tail, estremi e di eventi rari di quelli previsti da una normale distribuzione. La natura coda grassa la vera distribuzione era ben nota, ma di cui non si è agita. Che cosa non ha funzionato bene era la complessità e la stretta associazione di vari fenomeni, tra cui: il trading basato su computer con vendite automatiche.11

Problemi di aggregazione

Dati aggregati, che includono la maggior parte dei dati demografici ed epidemiologici sono soggetti a un particolare insieme di trappole. il paradosso di Simpson, oppure il paradosso dell'amalgama, si verifica nei dati aggregati in cui le tendenze apparenti scompaiono o vengono invertiti quando i dati vengono aggregati a un livello diverso a causa fattori confusi e rapporti causali incompreso.

La falsa ecologica comporta l'estrapolazione errata di informazioni sulle una popolazione da un livello di aggregazione a un altro, dove il reclamo potrebbe non essere valido. Una malattia che colpisce il 40% dei lavoratori agricoli del una provincia potrebbe non essere presente con la stessa prevalenza in popolazione. Inoltre, è molto probabile che si verifichino fattorie o fattorie isolate città agricole della provincia che non stanno riscontrando un tasso simile della diffusione di questa malattia. Ipotizzare una prevalenza del 40% nelle persone meno colpite potrebbero essere ingannevoli.

Il modifiable areal unit problem (MAUP) è un problema ben noto delle dati geospaziali, descritti da Stan Openshaw nel 1984 in CATMOG 38. A seconda delle forme e delle dimensioni delle aree utilizzate aggregati, un professionista dei dati geospaziali può stabilire e la correlazione tra le variabili nei dati. Estrazione di voti i distretti che preferiscono una parte o l'altra sono un esempio di MAUP.

Tutte queste situazioni comportano un'estrapolazione inappropriata da una livello di aggregazione a un altro. Livelli di analisi diversi possono richiedere differenti aggregazioni o persino set di dati completamente diversi.12

Tieni presente che i dati demografici, epidemiologici e relativi al censimento sono solitamente aggregate per zona per motivi di privacy, e che queste zone sono spesso arbitrario, ovvero non basato su confini significativi del mondo reale. Quando lavorando con questi tipi di dati, i professionisti di ML dovrebbero verificare le prestazioni e le previsioni cambiano in base alla dimensione e alla forma delle zone selezionata o il livello di aggregazione e, in tal caso, se le previsioni del modello sono interessate da uno di questi problemi di aggregazione.

Riferimenti

Pulsante, Katharine et al. "Interruzione di corrente: perché campioni di dimensioni ridotte compromettono la l'affidabilità delle neuroscienze." Natura Recensioni Neuroscience vol 14 (2013), 365–376. DOI: https://doi.org/10.1038/nrn3475

Il Cairo, Alberto. In che modo i grafici mento: informazioni visive in modo più intelligente. Roma: O Norton, 2019.

Davenport, Thomas H. "Un'introduzione all'analisi predittiva." Nella Guida ai dati di HBR Nozioni di base di Analytics per manager (Boston: HBR Press, 2018) 81-86.

De Langhe, Bart, Stefano Puntoni e Richard Larrick. "Linear Thinking in a Nonlinear World." In HBR Guide to Data Analytics Basics for Managers (Boston: HBR Press, 2018) 131-154.

Ellenberg, Giordania. Come non sbagliare: il potere del pensiero matematico. NY: Pinguino, 2014.

Uff, Darrell. Come mentire sulle statistiche. NY: W.W. Norton, 1954.

Jones, Ben. Evitare insidie relative ai dati. Hoboken, NJ: Wiley, 2020.

Openshaw, Stan. "The Modifiable Areal Unit Problem", CATMOG 38 (Norwich, Inghilterra: Geo Books 1984) 37.

The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) (testimonianze di Nassim N. Taleb e Richard Bookstaber).

Ritter, David. "Quando agire in base a una correlazione e quando non farlo". Nella Guida HBR a Nozioni di base sull'analisi dei dati per manager (Boston: HBR Press, 2018) 103-109.

Tulchinsky, Theodore H. ed Elena A. Varavikova. "Capitolo 3: Misurazione, monitoraggio e valutazione dello stato di salute di una popolazione" in The New Public Health, 3a edizione San Diego: Academic Press, 2014, pp 91-147. DOI: https://doi.org/10.1016/B978-0-12-415766-8.00003-3.

Andrea, Giulia, Andrea C. Verhoef e Tammo H. A. Bijmolt. "L'importanza delle relazioni non lineari tra atteggiamento e comportamento nella politica ricerca". Journal of Consumer Policy 30 (2007) 75–90. DOI: https://doi.org/10.1007/s10603-007-9028-3

Riferimento immagine

In base a "Von Mises Distribution". Rainald62, 2018. Origine


  1. Ellenberg 125. 

  2. Uff 77-79. Huff cita l'Office of Public Opinion Research di Princeton, ma potrebbe aver pensato Rapporto dell'aprile 1944 dal National Opinion Research Center dell'Università di Denver. 

  3. Tulchinsky e Varavikova. 

  4. Gary Taubes Sappiamo davvero cosa ci rende in salute?" su The New York Times Magazine, 16 settembre 2007.

  5. Ellenberg 78. 

  6. Uff 91-92. 

  7. Uff 93. 

  8. Jones 157-167. 

  9. Uff 95. 

  10. Davenport 84. 

  11. Vedi la testimonianza congressuale di Nassim N. Taleb e Richard Bookstaber in The Risks of Financial Modeling: VaR and the Economic Meltdown, 111th Congress (2009) 11-67.

  12. Cairo 155, 162.