Buona analisi dei dati

Autore: Patrick Riley

Un ringraziamento speciale a: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook e Barry Rosenberg.

Cronologia

Panoramica

Ricavare verità e insight da una pila di dati è un lavoro potente ma soggetto a errori. I migliori analisti di dati e data engineer si sviluppano una reputazione per formulare affermazioni credibili a partire dai dati. Ma che cosa fa loro che le rende credibili? Spesso sento aggettivi come attenti e metodici, ma cosa fanno in realtà gli analisti più attenti e metodici?

Non è una domanda banale, soprattutto dato il tipo di dati che raccogliamo regolarmente in Google. In genere non solo lavoriamo con set di dati molto grandi, ma questi sono estremamente ricchi. In altre parole, ogni riga di dati in genere ha molti attributi. Se combini tutto ciò con le sequenze temporali di eventi per un determinato utente, i dati possono essere analizzati in un numero enorme di modi. In contrasto con un tipico esperimento di psicologia accademica in cui è banale per il ricercatore esaminare ogni singolo punto dati. I problemi posti dai nostri grandi set di dati ad alta dimensione sono molto diversi da quelli riscontrati nella maggior parte della storia del lavoro scientifico.

Questo documento riassume le idee e le tecniche utilizzate da analisti attenti e metodici su set di dati di grandi dimensioni e con dimensioni elevate. Sebbene questo documento si concentri sui dati provenienti dai log e dall'analisi sperimentale, molte di queste tecniche sono più ampiamente applicabili.

La parte restante del documento è composta da tre sezioni che coprono diversi aspetti dell'analisi dei dati:

  • Tecnico: idee e tecniche per manipolare ed esaminare i tuoi dati.
  • Processo: consigli sul tuo approccio ai dati, quali domande porre e quali aspetti controllare.
  • Mindset: come collaborare con gli altri e comunicare informazioni.

Abilitazione tecnica

Vediamo alcune tecniche per esaminare i dati.

Controlla le tue distribuzioni

La maggior parte dei professionisti utilizza metriche di riepilogo (ad esempio media, mediana, deviazione standard e così via) per comunicare sulle distribuzioni. Tuttavia, dovresti esaminare rappresentazioni di distribuzione molto più avanzate generando istogrammi, funzioni di distribuzione cumulativa (CDF), grafici quantile-quantili (Q-Q) e così via. Queste rappresentazioni più complete consentono di rilevare caratteristiche importanti dei dati, come il comportamento multimodale o una classe significativa di anomalie.

Considera le anomalie

Esamina attentamente i valori anomali perché possono essere canarini nella miniera di carbone che indicano problemi più fondamentali con la tua analisi. Puoi escludere le anomalie dai tuoi dati o raggrupparle in una categoria "insolita", ma dovresti assicurarti di sapere perché i dati sono stati inseriti in quella categoria.

Ad esempio, l'analisi delle query con il numero più basso di clic potrebbe rivelare clic su elementi che non riesci a conteggiare. L'analisi delle query con il numero più elevato di clic potrebbe rivelare clic che non dovresti conteggiare. D'altra parte, potrebbero esserci alcune anomalie che non sarai mai in grado di spiegare, quindi devi fare attenzione a quanto tempo dedichi a questa attività.

Considera il rumore

La casualità esiste e ci inganni. Alcune persone pensano: "Google dispone di così molti dati e il rumore scompare". Questo non è vero. A ogni numero o riepilogo di dati che produci deve essere accompagnata da un'idea della tua affidabilità in questa stima (tramite misure quali intervalli di confidenza e p-values).

Guarda gli esempi

Ogni volta che produci nuovo codice di analisi, devi esaminare esempi dai dati sottostanti e come il tuo codice li interpreta. È quasi impossibile produrre codice funzionante di qualsiasi complessità senza eseguire questo passaggio. La tua analisi sta astraendo molti dettagli dai dati sottostanti per produrre riepiloghi utili. Osservando l'intera complessità dei singoli esempi, puoi acquisire fiducia nel fatto che il riepilogo è ragionevole.

Il modo in cui esegui il campionamento di questi esempi è importante:

  • Se stai classificando i dati sottostanti, guarda gli esempi appartenenti a ogni classe.
  • Se si tratta di una classe più grande, guarda più esempi.
  • Se stai calcolando un numero (ad esempio, il tempo di caricamento di una pagina), assicurati di esaminare esempi estremi (il 5% più veloce e più lento possibile; sai com'è la tua distribuzione, giusto?) e punti nell'ambito delle misurazioni.

Suddividi i dati

Per suddividere i dati si intende separare i dati in sottogruppi ed esaminare separatamente i valori delle metriche per ciascun sottogruppo. In genere, suddividiamo dimensioni come browser, impostazioni internazionali, dominio, tipo di dispositivo e così via. Se è probabile che il fenomeno sottostante funzioni in modo diverso da un sottogruppo all'altro, devi suddividere i dati per confermare se è effettivamente così. Anche se non ti aspetti che il slicing produca risultati diversi, esaminare alcune sezioni per la coerenza interna ti dà maggiore sicurezza che stai misurando la cosa giusta. In alcuni casi, una determinata sezione può presentare dati errati, un'interazione dell'utente interrotta o essere sostanzialmente diversa.

Ogni volta che suddividi i dati per confrontare due gruppi (ad esempio esperimento e controllo oppure anche "ora A" e "ora B"), devi fare attenzione alle variazioni di mix. Un mixshift si verifica quando la quantità di dati nelle sezioni per ogni gruppo è diversa. Il paradosso di Simpson e altre confusione possono generare. In genere, se la quantità relativa di dati in una sezione è la stessa tra i due gruppi, puoi tranquillamente fare un confronto.

Considera la significatività pratica

Con un grande volume di dati, si può avere la tentazione di concentrarsi esclusivamente sulla rilevanza statistica o di concentrarsi sui dettagli di ogni bit di dati. Ma devi chiederti: "Anche se è vero che il valore X è lo 0,1% in più rispetto al valore Y, ha importanza?" Questo può essere particolarmente importante se non riesci a comprendere/categorizzare parte dei tuoi dati. Se non riesci a comprendere alcune stringhe dello user agent nei log, il fatto che rappresentino lo 0,1% o il 10% dei dati fa una grande differenza nel modo in cui dovresti esaminare questi casi.

In alternativa, a volte hai un volume di dati ridotto. Molti cambiamenti non sembreranno statisticamente significativi, ma ciò è diverso dal affermare che questi cambiamenti sono "neutrali". Devi chiederti: "Quanto è probabile che ci sia ancora un cambiamento praticamente significativo?".

Verifica la coerenza nel tempo

È quasi sempre opportuno provare a suddividere i dati per unità di tempo, in quanto i dati sottostanti subiscono molte interferenze man mano che i nostri sistemi evolvono nel tempo. (Spesso utilizziamo i giorni, ma possono essere utili anche altre unità di tempo). Durante il lancio iniziale di una funzionalità o di una nuova raccolta di dati, i professionisti spesso controllano con attenzione che tutto funzioni come previsto. Tuttavia, nel tempo possono verificarsi molte interruzioni o comportamenti imprevisti.

Il semplice fatto che un determinato giorno o un determinato insieme di giorni sia un valore outlier non significa che devi eliminare i dati corrispondenti. Utilizza i dati come un aggancio per determinare un motivo causale per cui quel giorno o quei giorni è diverso prima di eliminarli.

L'analisi dei dati giornalieri ti dà anche un'idea della variazione dei dati che alla fine porterebbe a intervalli di confidenza o a dichiarazioni di significatività statistica. Questo non dovrebbe in genere sostituire un rigoroso calcolo dell'intervallo di confidenza, ma spesso con variazioni significative che puoi notare saranno statisticamente significative solo dai grafici relativi al giorno per giorno.

Confermare e conteggiare i filtri

Quasi ogni analisi di dati di grandi dimensioni inizia filtrando i dati in varie fasi. Ad esempio, potresti voler prendere in considerazione solo gli utenti negli Stati Uniti oppure le ricerche web o le ricerche con annunci. In ogni caso, devi:

  • Riconosci e specifica chiaramente il filtro che stai applicando.
  • Conta la quantità di dati filtrati a ogni passaggio.

Spesso il modo migliore per quest'ultima è calcolare tutte le metriche, anche per la popolazione che stai escludendo. Potrai quindi esaminare questi dati per rispondere a domande come "Quale frazione di query è stata rimossa dal filtro antispam?" (a seconda del motivo per cui applichi i filtri, questo tipo di analisi potrebbe non essere sempre possibile).

I rapporti devono avere numeratore e denominatori chiari

Le metriche più interessanti sono i rapporti delle misure sottostanti. Spesso, filtri interessanti o altre scelte relative ai dati sono nascosti nelle definizioni precise del numeratore e del denominatore. Ad esempio, quale dei seguenti significa effettivamente "Query / Utente"?

  • Query / utenti con una query
  • Query / utenti che hanno visitato Google oggi
  • Query / utenti con un account attivo (sì, dovrei definire attivo)

Essere molto chiari in questo punto evita confusione per te e gli altri.

Un altro caso speciale sono le metriche che possono essere calcolate solo su alcuni dati. Ad esempio, "Tempo per clic" in genere significa "Tempo per fare clic dato che è stato effettuato un clic". Ogni volta che esamini una metrica come questa, devi conoscere il filtro e cercare un cambiamento nel filtro tra i gruppi confrontati.

Processo

Questa sezione contiene consigli su come affrontare l'approccio ai dati, quali domande porre in merito ai dati e su cosa controllare.

Convalida, descrizione e valutazione separate

Penso che l'analisi dei dati abbia tre fasi interconnesse:

  1. Convalida1: ritengo che i dati siano autocoerenti, che siano stati raccolti correttamente e che rappresentino ciò che ritengo che facciano?
  2. Descrizione: qual è l'interpretazione obiettiva di questi dati? Ad esempio, "Gli utenti eseguono meno query classificate come X", "Nel gruppo dell'esperimento, il tempo tra X e Y è superiore dell'1%" e "Meno utenti passano alla pagina dei risultati successiva".
  3. Valutazione: data la descrizione, i dati ci dicono che sta succedendo qualcosa di positivo per l'utente, per Google o per il mondo?

Separando queste fasi, puoi raggiungere più facilmente un accordo con gli altri. La descrizione deve essere ciò che tutti possono concordare in merito ai dati. La valutazione stuzzica il dibattito. Se non separa descrizione e valutazione, è molto più probabile che visualizzi solo l'interpretazione dei dati che speri di vedere. Inoltre, la valutazione tende a essere molto più difficile perché stabilire il valore normativo di una metrica, in genere attraverso confronti rigorosi con altre caratteristiche e metriche, richiede investimenti significativi.

Queste fasi non progrediscono in modo lineare. Mentre esplori i dati, puoi passare da una fase all'altra, ma dovresti aver capito in qualsiasi momento la fase in cui ti trovi.

Conferma la configurazione dell'esperimento e della raccolta dati

Prima di esaminare qualsiasi dato, assicurati di comprendere il contesto in cui sono stati raccolti. Se i dati provengono da un esperimento, guarda la configurazione dell'esperimento. Se proviene dalla strumentazione di un nuovo client, assicurati di avere almeno una conoscenza approssimativa di come vengono raccolti i dati. Potresti notare configurazioni insolite/non valide o restrizioni relative alla popolazione (ad esempio dati validi solo per Chrome). Qualsiasi aspetto rilevante qui può aiutarti a creare e verificare teorie in un secondo momento. Alcuni aspetti da considerare:

  • Se l'esperimento è in esecuzione, provalo tu. Se non è possibile, guarda almeno screenshot o descrizioni del comportamento.
  • Verifica se c'è qualcosa di insolito nell'intervallo di tempo in cui è stato eseguito l'esperimento (festività, grandi lanci e così via).
  • Determinare quali popolazioni di utenti sono state sottoposte all'esperimento.

Controlla cosa non dovrebbe cambiare

Nella fase di "Convalida", prima di rispondere effettivamente alla domanda che ti interessa (ad esempio, "L'aggiunta dell'immagine di un volto ha aumentato o diminuito i clic?"), escluderà qualsiasi altra variabilità nei dati che potrebbe influire sull'esperimento. Ad esempio:

  • Il numero di utenti è cambiato?
  • Il numero corretto di query interessate è stato visualizzato in tutti i miei sottogruppi?
  • I tassi di errore sono cambiati?

Queste domande sono utili sia per i confronti tra esperimenti e controlli sia per l'esame delle tendenze nel tempo.

Prima standard, seconda personalizzata

Quando si esaminano le nuove funzionalità e i nuovi dati, si è particolarmente allettanti passare direttamente alle metriche nuove o speciali per questa nuova funzionalità. Tuttavia, ti consigliamo di esaminare sempre prima le metriche standard, anche se prevedi che cambino. Ad esempio, quando aggiungi un nuovo blocco universale alla pagina, assicurati di comprendere l'impatto sulle metriche standard come "clic sui risultati web" prima di analizzare le metriche personalizzate su questo nuovo risultato.

Le metriche standard sono molto più convalidate e hanno maggiori probabilità di essere corrette rispetto alle metriche personalizzate. Se le metriche personalizzate non hanno senso con quelle standard, è probabile che siano errate.

Misura due volte o più

Soprattutto se stai cercando di catturare un nuovo fenomeno, prova a misurare lo stesso elemento sottostante in più modi. Poi, determina se queste più misurazioni sono coerenti. Utilizzando più misurazioni, puoi identificare i bug nel codice di misurazione o logging, le funzionalità impreviste dei dati sottostanti o i passaggi di filtro importanti. È ancora meglio utilizzare origini dati diverse per le misurazioni.

Verificare la riproducibilità

Sia la suddivisione che la coerenza nel tempo sono esempi particolari di verifica della riproducibilità. Se un fenomeno è importante e significativo, dovresti rilevarlo in diversi periodi di tempo e popolazioni di utenti. Tuttavia, verificare la riproducibilità non significa eseguire questi due controlli. Se stai creando modelli dei dati, è consigliabile che siano stabili in caso di piccole perturbazioni nei dati sottostanti. L'utilizzo di intervalli di tempo diversi o di sottocampioni casuali dei dati indica anche l'affidabilità/riproducibilità del modello.

Se un modello non è riproducibile, probabilmente non stai acquisendo qualcosa di fondamentale sul processo sottostante che ha prodotto i dati.

Verifica la coerenza con le misurazioni precedenti

Spesso calcolerai una metrica simile a quelli che sono stati conteggiati in passato. Devi confrontare le metriche con quelle segnalate in passato, anche se queste misurazioni riguardano gruppi di utenti diversi.

Ad esempio, se esamini il traffico delle query su un popolamento speciale e misuri che il tempo di caricamento medio della pagina è di 5 secondi, ma le analisi precedenti su tutti gli utenti hanno indicato un tempo di caricamento medio della pagina di 2 secondi, devi esaminare. Il tuo numero potrebbe essere giusto per questa popolazione, ma ora devi fare di più per convalidarlo.

Non è necessario ottenere un accordo esatto, ma è bene essere sullo stesso piano. In caso contrario, presumere di sbagliare fino a quando non riuscirà a convincersi completamente. La maggior parte dei dati sorprendenti si rivelerà un errore, non un nuovo insight favoloso.

Le nuove metriche dovrebbero essere applicate prima ai dati/alle funzionalità precedenti

Se crei nuove metriche (ad esempio raccogliendo una nuova origine dati) e provi a imparare qualcosa di nuovo, non saprai se la nuova metrica è corretta. Con le nuove metriche, devi prima applicarle a una funzionalità o a dati noti. Ad esempio, se hai una nuova metrica per la soddisfazione dell'utente, devi assicurarti che indichi le funzionalità migliori per aumentare la soddisfazione. Se disponi di una nuova metrica relativa ai punti in cui gli utenti indirizzano la loro attenzione sulla pagina, assicurati che corrisponda a ciò che sappiamo, ad esempio, studi di tracciamento oculare o di valutazione del modo in cui le immagini influiscono sull'attenzione della pagina. In questo modo, hai la certezza di imparare qualcosa di nuovo.

Fare ipotesi e cercare prove

In genere, l'analisi dei dati per un problema complesso è iterativa.2 Scoprirai anomalie, tendenze o altre funzionalità dei dati, Naturalmente svilupperai teorie per spiegare questi dati. Non limitarti a sviluppare una teoria e a dichiararla vera. Cerca prove (all'interno o all'esterno dei dati) per confermare/negare questa teoria. Ad esempio:

  • Se noti qualcosa che sembra una tendenza di apprendimento, controlla se si manifesta maggiormente per gli utenti ad alta frequenza.
  • Se ritieni che un'anomalia sia dovuta al lancio di alcune funzionalità, assicurati che la popolazione a cui è stata lanciata sia l'unica interessata dall'anomalia. In alternativa, assicurati che la portata del cambiamento sia in linea con le aspettative del lancio.
  • Se noti che i tassi di crescita degli utenti cambiano in un'area geografica, prova a trovare un'origine esterna che confermi il tasso di modifica della popolazione utenti.

Una buona analisi dei dati deve avere una storia da raccontare. Per avere la certezza che sia la notizia giusta, devi raccontarti la storia e cercare le prove che la storia è sbagliata. Per raggiungere questo obiettivo, potresti chiederti quali esperimenti eseguirei per convalidare o invalidare la storia che racconto. Anche se non riesci a eseguire o meno questi esperimenti, potresti ricevere idee su come convalidarli utilizzando i dati in tuo possesso.

La buona notizia è che queste teorie e i possibili esperimenti possono portare a nuove linee di indagine che vanno oltre il tentativo di scoprire una particolare funzionalità o i dati. Successivamente, entri nel mondo della comprensione non solo di questi dati, ma anche di ricavare nuove metriche e tecniche per tutti i tipi di analisi future.

L'analisi esplorativa trae vantaggio dall'iterazione end-to-end

Quando esegui un'analisi esplorativa, esegui il maggior numero possibile di iterazioni dell'analisi completa. In genere sono previsti più passaggi di raccolta degli indicatori, elaborazione, definizione del modello e così via. Se impieghi troppo tempo a perfezionare la prima fase degli indicatori iniziali, perdi l'opportunità di eseguire più iterazioni nello stesso tempo. Inoltre, quando alla fine guardi i tuoi dati, potresti fare scoperte che cambiano la tua direzione. Pertanto, la tua attenzione iniziale non deve concentrarsi sulla perfezione, ma su qualcosa di ragionevole fino in fondo. Lascia note per te e riconosci aspetti come i passaggi di filtro e le richieste insolite o non analizzabili, ma non perdere tempo cercando di eliminarle tutte all'inizio dell'analisi esplorativa.

Fai attenzione al feedback

In genere definiamo varie metriche relative al successo degli utenti. Ad esempio, gli utenti hanno fatto clic su un risultato? Se poi invii i dati al sistema (cosa che facciamo di fatto in diverse posizioni), si creano molte opportunità di confusione in fase di valutazione.

Non puoi utilizzare la metrica fornita al tuo sistema come base per valutare la modifica. Se pubblichi più annunci che ricevono più clic, non puoi utilizzare "più clic" come base per stabilire se gli utenti sono più soddisfatti, anche se "più clic" spesso significa "più soddisfatti". Inoltre, non dovresti nemmeno suddividere le variabili che hai fornito e manipolato, poiché ciò si tradurrà in variazioni di mix che saranno difficili o impossibili da comprendere.

Mentalità

Questa sezione descrive come collaborare con altri e comunicare informazioni.

L'analisi dei dati inizia con le domande, non con i dati o con una tecnica

L'analisi dei dati è sempre una motivazione. Formulare le tue esigenze sotto forma di domande o ipotesi ti aiuta ad assicurarti di raccogliere i dati da raccogliere e di pensare alle possibili lacune nei dati. Naturalmente, le domande da porre dovrebbero evolversi man mano che si osservano i dati. Tuttavia, l'analisi senza porre domande risulterà inutile.

Evita la trappola di trovare una delle tue tecniche preferite per poi scoprire solo le parti dei problemi su cui funziona questa tecnica. Anche in questo caso, creare domande chiare ti aiuterà a evitare questa trappola.

Sii scettico e sostenitore

Man mano che utilizzi i dati, devi diventare sia il campione delle informazioni che stai ottenendo sia uno scettico nei confronti di queste. Speriamo che tu possa trovare alcuni fenomeni interessanti nei dati che osservi. Quando rilevi un fenomeno interessante, poniti le seguenti domande:

  • Quali altri dati potrei raccogliere per dimostrare quanto tutto questo sia fantastico?
  • Che cosa potrei trovare che lo invalidi?"

Soprattutto nei casi in cui si esegue l'analisi di qualcuno che vuole davvero una risposta specifica (ad es. "La mia funzionalità è fantastica!"), devi farti ingannare per evitare di commettere errori.

Correlazione != Causazione

Quando facciamo teorie sui dati, spesso vogliamo affermare che "X fa sì che Y", ad esempio "la lentezza della pagina causava meno clic degli utenti". Anche xkcd sa che non è possibile semplicemente stabilire una causale per via della correlazione. Riflettendo su come convalidare una teoria di causalità, di solito puoi sviluppare un'idea di quanto sia credibile una teoria causale.

A volte si cerca di mantenere una correlazione così significativa affermando che, anche se non esiste una relazione causale tra A e B, deve esserci qualcosa alla base della coincidenza, in modo che un segnale possa essere un buon indicatore o proxy per l'altro. Quest'area è pericolosa per più problemi di test delle ipotesi; come xkcd sa anche, a causa di un numero sufficiente di esperimenti e di dimensioni sufficienti, alcuni indicatori si allineeranno per un esperimento specifico. Ciò non implica che gli stessi segnali si allineeranno in futuro, quindi hai lo stesso obbligo di considerare una teoria causale come "c'è un effetto nascosto C che causa sia A che B", in modo da poter provare a convalidare quanto questo sia plausibile.

Un analista di dati deve spesso affrontare queste domande causali per le persone che vogliono consumare i dati. Dovresti essere chiari con questi consumatori ciò che puoi e non puoi dire sulla causalità.

Condividi prima con i colleghi, poi i consumatori esterni

I punti precedenti hanno suggerito alcuni modi per eseguire il tipo giusto di controllo e convalida della correttezza. Tuttavia, condividere contenuti con gli altri è uno dei modi migliori per sforzarti. Un collega esperto può fornire feedback qualitativamente diversi rispetto ai consumatori dei tuoi dati, soprattutto perché i consumatori hanno in genere un'agenda specifica. I peer sono utili in più punti dell'analisi. Puoi scoprire subito quali sono gli aspetti a cui i tuoi colleghi conoscono , i suggerimenti sugli aspetti da misurare e le ricerche passate in questo ambito. Verso la fine, i colleghi sono molto bravi a sottolineare stranezze, incongruenze o altre confusione.

Idealmente, dovresti ricevere un feedback da un collega che sa qualcosa sui dati che stai esaminando, ma anche un collega che ha un'esperienza generica nell'analisi dei dati è estremamente utile.

Aspettarsi e accettare ignoranza ed errori

Esistono molti limiti a ciò che possiamo imparare dai dati. Nate Silver sostiene in The Signal and the Noise che solo ammettendo i limiti della nostra certezza possiamo fare progressi per una previsione migliore. Ammettere l'ignoranza è un punto di forza che solitamente non viene immediatamente ricompensato. Al momento è una pessima sensazione, ma è un grande vantaggio per te e il tuo team nel lungo termine. È ancora peggio se commetti un errore e lo scopri in seguito (o anche troppo tardi!), ma gestire attivamente i tuoi errori ti fa guadagnare rispetto. Questo rispetto si traduce in credibilità e impatto.

Considerazioni finali

Gran parte del lavoro necessario per eseguire una buona analisi dei dati non è immediatamente evidente ai consumatori della tua analisi. Il fatto di aver controllato attentamente le dimensioni della popolazione e confermato che l'effetto sia coerente nei vari browser probabilmente non farà conoscere le persone che cercano di prendere decisioni sulla base di questi dati. Questo spiega anche perché una buona analisi dei dati richiede più tempo di quanto sembri alla maggior parte delle persone (soprattutto quando si vede solo l'output finale). Parte del nostro lavoro di analisti è quello di informare gradualmente i consumatori di insight basati sui dati su quali sono questi passaggi e perché sono importanti.

La necessità di tutte queste manipolazioni e esplorazioni dei dati definisce anche i requisiti per un linguaggio e un ambiente di analisi dei dati validi. Disponiamo di molti strumenti per esaminare i dati. I vari strumenti e linguaggi sono più adatti alle varie tecniche discusse sopra; la scelta dello strumento giusto è una competenza importante per un analista. Le funzionalità dello strumento con cui ti senti più a tuo agio non dovrebbero limitare le tue capacità; il tuo compito è fornire informazioni veritiere, non applicare uno strumento particolare.

 


  1. Talvolta questa pratica viene chiamata "analisi iniziale dei dati". Consulta l' articolo di Wikipedia sull'analisi dei dati 

  2. Tecnicamente, dovrebbe essere iterativo solo se si esegue un'analisi esplorativa, non un'analisi di conferma.