Qualità e interpretazione dei dati

"I rifiuti, i rifiuti."
— Proverbio della programmazione iniziale

Sotto ogni modello ML, ogni calcolo di correlazione, e ogni modello ML il suggerimento sui criteri include uno o più set di dati non elaborati. Non importa quanto sia bella persuadere o impressionare i prodotti finali, se i dati sottostanti erano il modello risultante è errato, raccolto in modo scorretto o di bassa qualità. previsione, visualizzazione o conclusione avranno anch'essi un qualità. Chiunque visualizzi, analizzi e addestra i modelli dei set di dati devono porre domande dettagliate sull'origine dei dati.

Gli strumenti di raccolta dati possono non funzionare correttamente o essere calibrati male. Gli esseri umani che raccolgono dati possono essere stanchi, dispettosi, incoerenti o male addestrato. Le persone commettono errori e persone diverse possono anche ragionevolmente non essere d'accordo sulla classificazione dei segnali ambigui. Di conseguenza, la qualità e la validità dei dati può risentirne e questi potrebbero non riflettere la realtà. Ben Jones, autore di Evita dati Problemi, che vengono chiamati divario nella realtà nei dati Ricordare al lettore: "Non è crimine, è un reato segnalato. Non è di meteoriti, è il numero di colpi di meteoriti registrati."

Esempi di divario nella realtà tra dati:

  • Jones mostra graficamente i picchi nelle misurazioni del tempo a intervalli di 5 minuti e misurazioni del peso a intervalli di 2 kg, non perché tali picchi sono presenti ma poiché i raccoglitori di dati umani, a differenza degli strumenti, tendono per arrotondare i rispettivi numeri allo 0 o al 5 più vicino.1

  • Nel 1985, Joe Farman, Brian Gardiner e Jonathan Shanklin lavorano per il Britannico Antartide (BAS), ha rilevato che le loro misurazioni indicano una buco stagionale nello strato di ozono nell'emisfero australe. Questo in contraddizione con i dati della NASA, che non hanno rilevato simili errori. Il fisico della NASA Richard Stolarski ha studiato e ha scoperto che il software di elaborazione dei dati della NASA era progettate in base al presupposto che i livelli di ozono non potrebbero mai scendere al di sotto di una certa quantità e le letture molto, molto basse di ozono rilevate sono stati automaticamente lanciati come outlier incomprensibili.2

  • Gli strumenti riscontrano diverse modalità di errore, a volte pur raccogliendo dati. Adam Ringler et al. una galleria di immagini sismografiche letture derivanti da guasti dello strumento (e dai corrispondenti guasti) nell'articolo del 2021 "Why Do My Squiggles Look Funny?"3 L'attività nel le letture di esempio non corrispondono all'attività sismica effettiva.

Per i professionisti del ML, è fondamentale comprendere:

  • Chi ha raccolto i dati
  • Come e quando sono stati raccolti i dati e in quali condizioni
  • Sensibilità e stato degli strumenti di misurazione
  • Come potrebbero presentarsi i guasti degli strumenti e l'errore umano in un determinato contesto
  • Tendenza umana ad arrotondare i numeri e fornire risposte desiderabili

Quasi sempre, c'è almeno una piccola differenza tra dati e realtà, noto anche come dati empirici reali. Tenere conto di questa differenza è fondamentale per trarre conclusioni efficaci e trarre prendere decisioni ponderate. Ciò include decidere:

  • quali problemi possono e devono essere risolti con l'ML.
  • quali problemi non sono risolti al meglio con l'ML.
  • problemi che non dispongono ancora di dati di alta qualità sufficienti per essere risolti con l'ML.

Chiedi: cosa viene comunicato dai dati nel senso più stretto e letterale? E, cosa ancora più importante, cosa non viene comunicato dai dati?

Dati sporchi

Oltre a indagare sulle condizioni della raccolta dei dati, il set di dati a sua volta può contenere errori, errori e valori nulli o non validi (come misurazioni negative della concentrazione). I dati provenienti dal crowdsourcing possono essere particolarmente disordinato. L'utilizzo di un set di dati di qualità sconosciuta può portare a risultati imprecisi.

Tra i problemi più comuni sono inclusi i seguenti:

  • Errori ortografici di valori di stringa, come luogo, specie o nomi di brand.
  • Conversioni di unità, unità o tipi di oggetti errati
  • Valori mancanti
  • Classificazioni o etichette errate coerenti
  • Cifre significative rimaste da operazioni matematiche che superano sensibilità effettiva di uno strumento

La pulizia di un set di dati spesso comporta la scelta di valori nulli e mancanti (sia per mantenerli null, rilasciarli o sostituire 0), correggendo l'ortografia in un versione singola, con la correzione di unità e conversioni e così via. Un modo più avanzato è l'attribuzione di valori mancanti, descritto in Caratteristiche dei dati in Machine Learning Crash Course.

Campionamento, bias di sopravvivenza e problema dell'endpoint surrogato

Le statistiche consentono un'estrapolazione valida e accurata dei risultati da una un campione puramente casuale alla popolazione più ampia. La fruibilità inosservata della questa ipotesi, insieme a input di addestramento sbilanciati e incompleti, ha portato agli errori di alto profilo di molte applicazioni ML, compresi i modelli utilizzati riprendere le revisioni e le attività di sorveglianza. Inoltre, ha causato errori di polling e altre conclusioni errate sui gruppi demografici. Nella maggior parte dei contesti al di fuori dati artificiali generati al computer, anche i campioni puramente casuali sono costose e troppo difficili da acquisire. Varie soluzioni alternative e a prezzi accessibili che introducono origini diverse bias.

Per utilizzare il metodo di campionamento stratificato, ad esempio, devi conoscere il prevalenza di ogni strato campionato nella popolazione più ampia. Se presupponi una prevalenza effettivamente errata, i risultati saranno imprecisi. Allo stesso modo, i sondaggi online sono raramente un campione casuale di una popolazione nazionale, ma un campione della popolazione connessa a internet (spesso da più paesi) che vede il sondaggio ed è disposto a farlo. È probabile che questo gruppo sia diverso da un vero campione casuale. Le domande nel sondaggio sono un campione di possibili domande. Le risposte alle domande del sondaggio sono: ancora una volta, non un campione casuale di intervistati opinioni reali, ma un campione opinioni che i partecipanti si sentono a proprio agio nel fornire, che possono differire dalle loro opinioni reali.

I ricercatori in materia di salute clinica riscontrano un problema simile noto come surrogato dell'endpoint. Perché ci vuole troppo tempo per controllare gli effetti di un farmaco della vita di un paziente, i ricercatori utilizzano i biomarcatori proxy che si presume siano ma potrebbe non esserlo. I livelli di colesterolo sono usati come surrogato endpoint per attacchi di cuore e decessi causati da problemi cardiovascolari: se un farmaco riduce i livelli di colesterolo, si presume che diminuisca anche il rischio di problemi cardiaci. Tuttavia, questa catena di correlazione potrebbe non essere valida, altrimenti l'ordine di causale può essere diversa da quella ipotizzata dal ricercatore. Vedi Weintraub et al., "I pericoli degli endpoint surrogati", per altri esempi e dettagli. La situazione equivalente nell'ML è quella etichette proxy.

Il matematico Abraham Wald ha identificato un problema di campionamento dei dati noto ora come bias di sopravvivenza. Gli aerei da guerra stavano tornando con i fori dei proiettili in determinate località e non in altri. L'esercito americano voleva aggiungere altre armature agli aerei nelle aree con più fori di proiettili, ma il gruppo di ricerca di Wally è consigliabile aggiungere l'armatura ad aree senza fori di proiettile. Hanno dedotto correttamente che il campione di dati era distorto perché gli aerei hanno sparato quelle aree erano così gravemente danneggiate che non è stato possibile tornare alla base.

Profilo di un aereo con punti rossi che indicano dei fori di proiettile
Diagramma ipotetico dei danni da proiettile su un bombardiere della 2a Guerra Mondiale sopravvissuto

Avere un modello di raccomandazione dell'armatura addestrato esclusivamente su diagrammi di aerei da guerra, senza insight sui pregiudizi di sopravvivenza presenti nei dati, il modello avrebbe consigliato di rinforzare le aree con più fori di proiettile.

I bias di autoselezione possono derivare dal volontariato di soggetti umani per partecipare a uno studio. Detenuti motivati a iscriversi a un programma per ridurre la recidiva potrebbero, ad esempio, rappresentare una popolazione con minori probabilità di impegnarsi crimini futuri rispetto alla popolazione generale dei detenuti. Ciò potrebbe alterare i risultati.4

Un problema di campionamento più sottile è rappresentato dal distinzione del richiamo, che riguarda la durevolezza di soggetti umani ricordi. Nel 1993, Edward Giovannucci fece una domanda a un gruppo di persone della stessa età delle donne, ad alcune delle quali è stato diagnosticato un cancro, in merito alla loro precedente alimentazione abitudini sane. Le stesse donne avevano effettuato un sondaggio sulle abitudini alimentari prima di le diagnosi di tumore. Ciò che Giovannucci scoprì fu che le donne senza cancro le diagnosi ricordavano la dieta in modo accurato, ma le donne affette da tumore al seno hanno riportato consumare più grassi rispetto a quanto registrato in precedenza, inconsapevolmente fornendo una possibile (anche se imprecisa) spiegazione per il loro tumore.5

Chiedi:

  • Che cos'è il campionamento di un set di dati?
  • Quanti livelli di campionamento sono presenti?
  • Quale bias potrebbe essere introdotto a ciascun livello di campionamento?
  • Viene utilizzata la misurazione del proxy (che si tratti di biomarcatori, sondaggi online o punti elenco) foro) che mostrano una correlazione o una causa?
  • Cosa potrebbe mancare nel campione e nel metodo di campionamento?

Il modulo Equità in Machine Learning Crash Course illustra come valutare e mitigare ulteriori fonti di bias nei set di dati demografici.

Definizioni e classifiche

Definisci i termini in modo chiaro e preciso oppure chiedi definizioni chiare e precise. Questa operazione è necessaria per capire quali caratteristiche dei dati vengono prese in considerazione e che cosa viene previsto o rivendicato esattamente. Charles Wheelan, in Naked Statistics, offre "la salute degli Stati Uniti produzione" un esempio di termine ambiguo. Se il settore manifatturiero negli Stati Uniti è "sano" dipende interamente da come viene definito il termine. Greg Ip Articolo di marzo 2011 su The Economist illustra questa ambiguità. Se la metrica per "salute" è "manifatturiero "output" poi nel 2011 la produzione americana era sempre più sana. Se "salute" la metrica è definita come "lavori di produzione", mentre il settore manifatturiero statunitense era in calo.6

Spesso i ranking presentano problemi simili, ad esempio quelli oscurati o privi di senso ponderate assegnate a vari componenti della classifica, incoerenza e opzioni non valide. Malcolm Gladwell, scrivendo su The New Yorker, menziona una Thomas Brennan, giudice capo della corte suprema del Michigan, che una volta inviò un sondaggio a un centinaio di avvocati con l'invito a classificare dieci scuole di legge per qualità, alcuni famosi, altre no. Questi avvocati hanno classificato la facoltà di legge della Penn State all'incirca al quinto posto benché al momento del sondaggio, la Penn State non aveva una legge di scuola.7 Molte classifiche note includono un approccio soggettivo il componente reputazionale. Chiedi quali sono i componenti che entrano in un ranking e perché ai componenti sono stati assegnati i loro pesi specifici.

Piccoli numeri ed effetti grandi

Non è sorprendente ottenere il 100% di testa o 100% di croce se stai lanciando una moneta due volte. Non è nemmeno sorprendente ottenere il 25% di teste dopo aver lanciato una moneta 4 volte, il 75% va in testa per i successivi quattro flip, anche se questo dimostra Aumento enorme (che potrebbe essere attribuito erroneamente a un panino ingerito tra le serie di lanci o qualsiasi altro fattore spurio). Ma poiché il numero di lanci delle monete aumenta, ad esempio a 1.000 o 2.000, le grandi deviazioni percentuali il 50% previsto divente incredibilmente improbabile.

Spesso si fa riferimento al numero di misurazioni o di soggetti sperimentali in uno studio fino a N. Cambiamenti proporzionali di grandi dimensioni dovuti al caso hanno maggiori probabilità di si verificano in set di dati e campioni con un valore N basso.

Quando si esegue un'analisi o si documenta un set di dati in una scheda dati, specificare N, in modo che le altre persone possano considerare l'influenza del rumore e della casualità.

Poiché la qualità del modello tende a scalare con il numero di esempi, un set di dati con un valore N basso tende a generare modelli di bassa qualità.

Regressione alla media

Analogamente, ogni misurazione che ha una qualche influenza per caso è soggetta a un noto come regressione alla media. Descrive come la misurazione dopo una misurazione particolarmente estrema potrebbe essere, in media, meno estrema o più vicina alla media, a causa di come era improbabile che la misurazione estrema si verificasse in primo luogo. La è più pronunciato se un gruppo particolarmente sopra la media o sotto la media è stato selezionato per l'osservazione, per vedere se il gruppo è la persona più alta in una della popolazione, i peggiori atleti di una squadra o quelli più a rischio di ictus. La i bambini delle persone più alte hanno in media più probabilità di essere più bassi dei loro genitori, è probabile che i peggiori atleti abbiano un rendimento migliore dopo un stagione cattiva e le persone più a rischio di ictus hanno probabilità di mostrare un rischio ridotto dopo qualsiasi intervento o trattamento, non a causa di fattori causali, grazie alle proprietà e alle probabilità della casualità.

Una mitigazione degli effetti della regressione alla media, quando si esplora interventi o trattamenti per un gruppo superiore o inferiore alla media, è dividere i soggetti in un gruppo di studio e un gruppo di controllo per isolare causali. Nel contesto dell'ML, questo fenomeno suggerisce di pagare su qualsiasi modello che prevede valori eccezionali o outlier, come:

  • condizioni atmosferiche o temperature estreme
  • negozi o atleti con il rendimento migliore
  • video più popolari su un sito web

Se le previsioni in corso di un modello di questi valori eccezionali nel tempo non corrispondono alla realtà, ad esempio la previsione che un negozio o un video di grande successo continuerà ad avere successo, non è, chiedi:

  • Il problema potrebbe essere la regressione alla media?
  • Le caratteristiche con le ponderazioni più alte sono in realtà più predittive rispetto alle caratteristiche con pesi inferiori?
  • La raccolta di dati che hanno il valore di base per quelle caratteristiche, spesso zero (in pratica un gruppo di controllo) cambiano le previsioni del modello?

Riferimenti

Uff, Darrell. Come mentire sulle statistiche. NY: W.W. Norton, 1954.

Jones, Ben. Evitare insidie relative ai dati. Hoboken, NJ: Wiley, 2020.

O'Connor, Cailin e James Owen Weatherall. L'era della disinformazione. Nuovo porto: Yale UP, 2019.

Ringler, Adam, David Mason, Gabi Laske e Mary Templeton. "Perché i miei scarafaggi hanno un aspetto divertente? Una Galleria dei segnali sismici compromessi". Seismological Research Letter 92 n. 6 (luglio 2021). DOI: 10.1785/0220210094

Weintraub, William S, Thomas F. Lüscher e Stuart Pocock. "I pericoli degli endpoint surrogati." European Heart Journal 36 n. 33 (settembre 2015): 2212–2218. DOI: 10,1093/eurheartj/ehv164

Wheelan, Carlo. Statistiche nude: elimina i dati dal terrore. Roma: O Norton, 2013

Riferimento immagine

"Pregiudizi di sopravvivenza." Martin Grandjean, McGeddon e Cameron Moll 2021. CC BY-SA 4.0. Origine


  1. Jones 25-29. 

  2. O'Connor e Weatherall 22-3. 

  3. Ringling et al.

  4. Wheelan 120. 

  5. Siddhartha Mukherjee "I cellulari causano il cancro al cervello?" su The New York Times, 13 aprile 2011. Citato in Wheelan 122.

  6. Wheelan 39-40. 

  7. Malcolm Gladwell "L'ordine delle cose", su The New Yorker, 14 febbraio 2011. Citato in Wheelan 56.