Questa pagina è stata tradotta dall'API Cloud Translation.

Buona analisi dei dati

Autore: Patrick Riley

Un ringraziamento speciale a: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook e Barry Rosenberg.

Cronologia

Ultimo aggiornamento importante: giugno 2019
Una versione precedente di questo materiale è stata pubblicata sul blog non ufficiale di Google Data Science: ottobre 2016

Panoramica

Ricavare informazioni reali da una pila di dati è un compito potente, ma soggetto a errori. I migliori analisti e esperti di dati si sviluppano una reputazione di quando effettuano dichiarazioni credibili a partire dai dati. Ma cosa fa che conferisce credibilità? Sento spesso aggettivi come attento e metodico, ma cosa fanno in realtà gli analisti più attenti e metodici?

Non si tratta di una domanda banale, soprattutto dato il tipo di dati che regolarmente raccogliamo in Google. In genere non solo lavoriamo con set di dati molto grandi, ma questi sono estremamente ricchi. In altre parole, ogni riga di dati in genere contiene molti attributi. Se combini questa operazione con le sequenze temporali degli eventi per un determinato utente, esistono moltissimi modi per esaminare i dati. Confronta questo con un tipico esperimento di psicologia accademica in cui per il ricercatore è banale esaminare ogni singolo punto dati. I problemi posti dai nostri grandi set di dati ad alta dimensione sono molto diversi da quelli incontrati nella maggior parte della storia del lavoro scientifico.

Questo documento riassume le idee e le tecniche che gli analisti attenti e metodici utilizzano su set di dati di grandi dimensioni e ad alta dimensione. Sebbene questo documento si concentri sui dati provenienti dai log e dalle analisi sperimentali, molte di queste tecniche sono applicabili a livello più ampio.

Il resto del documento comprende tre sezioni che coprono diversi aspetti dell'analisi dei dati:

Tecnico: idee e tecniche per manipolare ed esaminare i dati.
Processo: consigli sul tuo approccio ai dati, sulle domande da porre e sugli aspetti da controllare.
Mindset: come collaborare con gli altri e comunicare informazioni importanti.

Abilitazione tecnica

Diamo un'occhiata ad alcune tecniche per esaminare i dati.

Osserva le tue distribuzioni

La maggior parte dei professionisti utilizza metriche di riepilogo (ad esempio media, mediana, deviazione standard e così via) per comunicare le distribuzioni. Tuttavia, di solito dovresti esaminare rappresentazioni di distribuzione molto più ricche generando istogrammi, funzioni di distribuzione cumulative (CDF), grafici quantile-quantili (Q-Q) e così via. Queste rappresentazioni più complete consentono di rilevare caratteristiche importanti dei dati, come il comportamento multimodale o una classe significativa di valori anomali.

Considera i valori anomali

Esamina attentamente i valori anomali perché possono essere canarini nella miniera di carbone che indicano problemi più fondamentali nella tua analisi. È consentito escludere dai dati i valori anomali o raggrupparli in una categoria "insolita", ma dovresti assicurarti di sapere perché i dati sono finiti in quella categoria.

Ad esempio, l'analisi delle query con il numero più basso di clic potrebbe rivelare clic sugli elementi che non riesci a conteggiare. L'analisi delle query con il maggior numero di clic può rivelare i clic che non dovresti conteggiare. D'altra parte, potrebbero esserci alcune anomalie che non sarai mai in grado di spiegare, quindi devi fare attenzione a quanto tempo dedichi a questa attività.

Considera il rumore

La casualità esiste e ci ingannerà. Alcune persone pensano: "Google ha così molti dati e il rumore scompare". Questo non è vero. A ogni numero o riepilogo di dati che produci deve essere associata un'idea del tuo grado di affidabilità in questa stima (tramite misure come intervalli di confidenza e p-values).

Guarda gli esempi

Ogni volta che produci un nuovo codice di analisi, devi esaminare alcuni esempi dai dati sottostanti e capire come il tuo codice li interpreta. È quasi impossibile produrre codice funzionante con qualsiasi complessità senza eseguire questo passaggio. La tua analisi sta astraendo molti dettagli dai dati sottostanti per produrre riassunti utili. Osservando l'intera complessità dei singoli esempi, puoi avere la certezza che la tua sintesi è ragionevole.

Il modo in cui esegui il campionamento di questi esempi è importante:

Se stai classificando i dati sottostanti, guarda gli esempi appartenenti a ogni classe.
Se si tratta di una classe più grande, guarda più esempi.
Se stai calcolando un numero (ad esempio il tempo di caricamento di una pagina), assicurati di esaminare gli esempi estremi (il 5% più veloce e più lento, forse il 5% più rapido e lento; sai com'è la tua distribuzione, giusto?) e i punti nello spazio delle misurazioni.

Suddividere i dati

Per affettare si intende separare i dati in sottogruppi e analizzare separatamente i valori delle metriche per ogni sottogruppo. Solitamente analizziamo dimensioni come browser, impostazioni internazionali, dominio, tipo di dispositivo e così via. Se è probabile che il fenomeno sottostante funzioni in modo diverso nei diversi sottogruppi, devi suddividere i dati per confermare se è effettivamente così. Anche se non prevedi che il taglio produca risultati diversi, esaminando alcune sezioni per verificare la coerenza interna è più probabile che tu stia misurando l'elemento giusto. In alcuni casi, una determinata sezione potrebbe contenere dati errati, un'interazione dell'utente interrotta o in qualche modo essere sostanzialmente diversa.

Ogni volta che suddividi i dati per confrontare due gruppi (ad esempio esperimento e controllo oppure anche "ora A" e "ora B"), devi fare attenzione alle variazioni del mix. Uno scostamento del mix si verifica quando la quantità di dati nelle sezioni per ogni gruppo è diversa. Il paradosso di Simpson e altre confusione possono tradursi. In genere, se la quantità relativa di dati in una sezione è la stessa tra i due gruppi, puoi fare un confronto in tutta sicurezza.

Considera la significatività pratica

Con un grande volume di dati, si può avere la tentazione di concentrarsi esclusivamente sulla significatività statistica o di concentrarsi sui dettagli di ogni bit di dati. Devi però chiederti: "Anche se è vero, il valore X è lo 0,1% in più rispetto al valore Y, è importante?" Ciò può essere particolarmente importante se non sei in grado di comprendere/categorizzare parte dei tuoi dati. Se non riesci a capire alcune stringhe dello user agent nei log, sapere se rappresentano lo 0,1% o il 10% dei dati.

In alternativa, a volte hai un volume ridotto di dati. Molte modifiche non sembreranno statisticamente significative, ma ciò è diverso dal affermare che si tratta di cambiamenti "neutrali". Devi chiederti: "Quanto è probabile che esista ancora un cambiamento praticamente significativo?".

Verificare la coerenza nel tempo

Quasi sempre, è consigliabile provare a suddividere i dati per unità di tempo, dato che molte perturbazioni ai dati sottostanti si verificano man mano che i nostri sistemi si evolvono nel tempo. (spesso utilizziamo i giorni, ma possono essere utili anche altre unità di tempo). Durante il lancio iniziale di una funzionalità o di una nuova raccolta di dati, i professionisti spesso verificano con attenzione che tutto funzioni come previsto. Tuttavia, nel tempo possono verificarsi molte interruzioni o comportamenti imprevisti.

Solo perché un determinato giorno o un determinato insieme di giorni è un'anomalia, non significa che devi eliminare i dati corrispondenti. Usa i dati come un hook per determinare un motivo causale per cui quel giorno o quei giorni sono diversi prima di essere scartati.

L'analisi dei dati giornalieri offre anche un'idea della variazione dei dati che porterebbe a intervalli di confidenza o ad affermazioni di significatività statistica. In genere, questo non dovrebbe sostituire i rigorosi calcoli dell'intervallo di confidenza, ma spesso con variazioni significative che puoi osservare sono statisticamente significative solo per i grafici giornalieri.

Conferma e conteggia i filtri

Quasi ogni analisi dei dati di grandi dimensioni inizia filtrando i dati in varie fasi. Ad esempio, potresti considerare solo gli utenti negli Stati Uniti oppure le ricerche web oppure le ricerche con annunci. In ogni caso, devi:

Conferma e specifica chiaramente il filtro che stai applicando.
Conta la quantità di dati filtrati in ogni passaggio.

Spesso il modo migliore per quest'ultimo è calcolare tutte le metriche, anche per la popolazione che stai escludendo. Puoi quindi guardare questi dati per rispondere a domande come "Quale frazione di query ha rimosso il filtro antispam?" A seconda del motivo per cui applichi i filtri, questo tipo di analisi potrebbe non essere sempre possibile.

I rapporti devono contenere numeratori e denominatori chiari

Le metriche più interessanti sono i rapporti delle misure sottostanti. Spesso, interessanti filtri o altre scelte relative ai dati sono nascosti nelle precise definizioni del numeratore e del denominatore. Ad esempio, quale dei seguenti indica "Query / Utente" in realtà?

Query / utenti con una query
Query / utenti che hanno visitato Google oggi
Query / utenti con un account attivo (sì, dovrei definire attivo)

Essere molto chiari qui può evitare confusione per te e per gli altri.

Un altro caso speciale sono le metriche che possono essere calcolate solo su alcuni dati. Ad esempio, "Tempo per fare clic" in genere significa "Tempo per fare clic dato che è stato effettuato un clic". Ogni volta che esamini una metrica come questa, devi dare atto a questa metrica e cercare un cambiamento nell'applicazione dei filtri tra i gruppi confrontati.

Processo

Questa sezione contiene suggerimenti su come approcciare i dati, quali domande fare in merito ai dati e su cosa controllare.

Convalida, descrizione e valutazione separate

Penso che l'analisi dei dati sia caratterizzata da tre fasi interconnesse:

Convalida¹: ritengo che i dati siano coerenti, che siano stati raccolti correttamente e che rappresentino ciò che ritengo che facciano?
Descrizione: qual è l'interpretazione obiettiva di questi dati? Ad esempio, "Gli utenti eseguono meno query classificate come X", "Nel gruppo sperimentale, il tempo tra X e Y è maggiore dell'1%" e "Un numero minore di utenti passa alla pagina dei risultati successiva".
Valutazione: data la descrizione, i dati ci dicono che sta accadendo qualcosa di buono per l'utente, per Google o per il mondo?

Separando queste fasi, è più facile raggiungere un accordo con gli altri. La descrizione deve indicare informazioni su cui tutti possono essere d'accordo in merito ai dati. La valutazione potrebbe stimolare un dibattito molto maggiore. Se non separa Descrizione e Valutazione, è più probabile che visualizzerai solo l'interpretazione dei dati che speri di visualizzare. Inoltre, la valutazione tende a essere molto più difficile perché stabilire il valore normativo di una metrica, in genere tramite confronti rigorosi con altre caratteristiche e metriche, richiede investimenti significativi.

Queste fasi non progrediscono in modo lineare. Mentre esplori i dati, puoi passare da una fase all'altra, ma devi essere chiaro in qualsiasi momento in quale fase ti trovi.

Conferma la configurazione dell'esperimento e della raccolta dei dati

Prima di esaminare i dati, assicurati di comprendere il contesto in cui sono stati raccolti. Se i dati provengono da un esperimento, guarda la configurazione dell'esperimento. Se il processo è dalla strumentazione del nuovo client, assicurati di avere almeno una comprensione approssimativa di come vengono raccolti i dati. Potresti individuare configurazioni insolite o errate oppure restrizioni sulla popolazione (ad esempio dati validi solo per Chrome). Qualsiasi cosa degna di nota qui può aiutarti a creare e verificare le teorie in seguito. Alcuni aspetti da considerare:

Se l'esperimento è in esecuzione, provalo tu. Se non è possibile, guarda gli screenshot e le descrizioni del comportamento.
Controlla se ci sono aspetti insoliti nell'intervallo di tempo in cui è stato eseguito l'esperimento (festività, grandi lanci e così via).
Determinare quali gruppi di utenti sono stati sottoposti all'esperimento.

Controlla cosa non deve cambiare

Nell'ambito della fase di "Convalida", prima di rispondere effettivamente alla domanda che ti interessa (ad esempio "L'aggiunta dell'immagine di un volto ha aumentato o diminuito i clic?"), esclude qualsiasi altra variabilità nei dati che potrebbe influire sull'esperimento. Ad esempio:

Il numero di utenti è cambiato?
Il numero corretto di query interessate è stato visualizzato in tutti i miei sottogruppi?
I tassi di errore sono cambiati?

Queste domande sono utili sia per i confronti tra esperimenti e controlli, sia per l'esame delle tendenze nel tempo.

Prima lo standard, poi personalizzato

Quando si esaminano nuove funzionalità e nuovi dati, si è particolarmente allettanti passare direttamente alle metriche nuove o speciali per questa nuova funzionalità. Tuttavia, ti conviene sempre dare un'occhiata alle metriche standard, anche se prevedi che cambino. Ad esempio, quando aggiungi un nuovo blocco universale alla pagina, assicurati di comprendere l'impatto sulle metriche standard come "clic sui risultati web" prima di analizzare le metriche personalizzate relative a questo nuovo risultato.

Le metriche standard sono molto più convalidate e hanno maggiori probabilità di essere corrette rispetto alle metriche personalizzate. Se le metriche personalizzate non hanno senso con quelle standard, probabilmente sono errate.

Misura due volte o più

Soprattutto se stai cercando di catturare un nuovo fenomeno, prova a misurare lo stesso elemento sottostante in più modi. Poi, determina se queste più misurazioni sono coerenti. Utilizzando più misurazioni, puoi identificare i bug nel codice di misurazione o logging, le funzionalità impreviste dei dati sottostanti o i passaggi di filtro importanti. È ancora meglio usare origini dati diverse per le misurazioni.

Verificare la riproducibilità

Sia il taglio e la coerenza nel tempo sono esempi particolari di come verificare la riproducibilità. Se un fenomeno è importante e significativo, dovresti vederlo in diversi periodi e gruppi di utenti. Tuttavia, verificare la riproducibilità significa molto di più che eseguire questi due controlli. Se stai creando modelli dei dati, vuoi che siano stabili anche in caso di piccole perturbazioni nei dati sottostanti. L'utilizzo di intervalli di tempo diversi o di sottocampioni casuali dei tuoi dati ti indicherà anche quanto sia affidabile/riproducibile questo modello.

Se un modello non è riproducibile, probabilmente non stai acquisendo qualcosa di fondamentale nel processo di base che ha prodotto i dati.

Verifica la coerenza con le misurazioni precedenti

Spesso capita di calcolare una metrica simile a quelli che sono stati conteggiati in passato. Dovresti confrontare le tue metriche con quelle segnalate in passato, anche se queste misurazioni si riferiscono a gruppi di utenti diversi.

Ad esempio, se esamini il traffico di query su un popolamento speciale e misuri che il tempo medio di caricamento di una pagina è di 5 secondi, ma le analisi passate su tutti gli utenti hanno fornito un tempo di caricamento medio della pagina di 2 secondi, devi indagare. Il tuo numero potrebbe essere adatto a questa popolazione, ma ora devi fare più lavoro per verificarlo.

Non è necessario ottenere un accordo esatto, ma dovresti essere nello stesso punto. In caso contrario, bisogna presumere che tu abbia torto fino a quando non sarai in grado di convincerti del tutto. I dati più sorprendenti si riveleranno un errore, non un nuovo approfondimento.

Le nuove metriche dovrebbero essere applicate prima ai dati/alle funzionalità precedenti

Se crei nuove metriche (probabilmente raccogliendo una nuova origine dati) e provi a imparare qualcosa di nuovo, non saprai se la nuova metrica è corretta. Con le nuove metriche, dovresti prima applicarle a una funzionalità o a dati noti. Ad esempio, se hai una nuova metrica per la soddisfazione degli utenti, dovresti assicurarti che indichi le funzionalità migliori per aumentare la soddisfazione. Se disponi di una nuova metrica per capire dove gli utenti indirizzano la loro attenzione alla pagina, assicurati che corrisponda a quanto sappiamo, ad esempio, nell'analisi di studi di tracciamento o di valutazione sul modo in cui le immagini influiscono sull'attenzione della pagina. In questo modo si ottiene la convalida quando si impara qualcosa di nuovo.

Fai ipotesi e cerca prove

In genere, l'analisi dei dati per un problema complesso è iterativa.² Scoprirai anomalie, tendenze o altre funzionalità dei dati. Naturalmente, svilupperai delle teorie per spiegare questi dati. Non limitarti a sviluppare una teoria e proclamala che è vera. Cerca prove (all'interno o all'esterno dei dati) che confermino o negano questa teoria. Ad esempio:

Se noti qualcosa che sembra una tendenza di apprendimento, controlla se si manifesta maggiormente per gli utenti ad alta frequenza.
Se ritieni che un'anomalia sia dovuta al lancio di alcune funzionalità, assicurati che la popolazione in cui è stata lanciata la funzionalità sia l'unica interessata dall'anomalia. In alternativa, assicurati che l'entità del cambiamento sia in linea con le aspettative del lancio.
Se noti che i tassi di crescita degli utenti cambiano in un'impostazione internazionale, prova a trovare una sorgente esterna che convalidi il tasso di variazione della popolazione di utenti.

Una buona analisi dei dati avrà una storia da raccontare. Per assicurarti che sia la storia giusta, devi raccontarla e cercare le prove del fatto che è sbagliata. Per farlo, potresti chiederti: "Quali esperimenti eseguirei per convalidare o invalidare la storia che racconto?". Anche se non li esegui o non puoi effettuare questi esperimenti, potrebbero darti idee su come convalidarli con i dati a tua disposizione.

La buona notizia è che queste teorie e i possibili esperimenti possono portare a nuove linee di indagine che trascendono il tentativo di scoprire una particolare funzionalità o i dati specifici. Si entra poi nel campo della comprensione non solo di questi dati, ma anche di ricavare nuove metriche e tecniche per tutti i tipi di analisi future.

L'analisi esplorativa trae vantaggio dall'iterazione end-to-end

Quando esegui l'analisi esplorativa, esegui il maggior numero possibile di iterazioni dell'analisi completa. In genere sono previsti più passaggi di raccolta, elaborazione, definizione del modello degli indicatori e così via. Se dedichi troppo tempo a perfezionare la prima fase degli indicatori iniziali, perdi l'opportunità di eseguire più iterazioni nello stesso tempo. Quando finalmente analizzerai i dati, potresti scoprire che potrebbero cambiare la tua direzione. Di conseguenza, ti suggeriamo di non concentrarti sulla perfezione, ma sull'ottenimento di qualcosa di ragionevole fino alla fine. Lascia note per te stesso e prendi atto di passaggi come i passaggi per filtrare e richieste non analizzabili o insolite, ma non perdere tempo cercando di cancellarle tutte all'inizio dell'analisi esplorativa.

Fai attenzione al feedback

In genere definiamo varie metriche relative al successo degli utenti. Ad esempio, gli utenti hanno fatto clic su un risultato? Se poi fornisci di nuovo quei dati al sistema (cosa che facciamo in realtà in una serie di punti), si creano molte opportunità di confusione per la valutazione.

Non puoi utilizzare la metrica fornita al tuo sistema come base per valutare la modifica. Se pubblichi più annunci che ricevono più clic, non puoi utilizzare "più clic" come base per stabilire se gli utenti sono più soddisfatti, anche se "più clic" spesso significa "più soddisfatti". Inoltre, non devi neanche escludere le variabili che hai fornito e manipolato, perché ciò comporterebbe variazioni del mix difficili o impossibili da comprendere.

Mentalità

Questa sezione descrive come collaborare con altri utenti e comunicare informazioni.

L'analisi dei dati inizia con le domande, non con i dati o con una tecnica

Analizzare i dati è sempre motivato. Formulare le tue esigenze sotto forma di domande o ipotesi aiuta a garantire che stai raccogliendo i dati da raccogliere e che stai pensando alle possibili lacune nei dati. Naturalmente, le domande da porre dovrebbero evolversi di pari passo con l'analisi dei dati. Tuttavia, l'analisi senza domanda risulterà inutile.

Evita la trappola di trovare una delle tue tecniche preferite, per poi individuare solo le parti dei problemi su cui funziona. Anche in questo caso, creare domande chiare ti aiuterà a evitare questa trappola.

Sii scettico e sostenitore

Man mano che utilizzi i dati, devi diventare sia campione delle informazioni che stai ottenendo, sia scettici di riguardo. Speriamo che troverai alcuni fenomeni interessanti nei dati che osservi. Quando rilevi un fenomeno interessante, poniti le seguenti domande:

Quali altri dati potrei raccogliere per dimostrare quanto sia fantastico?
Cosa posso trovare che potrebbe invalidare questa cosa?"

Soprattutto nei casi in cui si esegue un'analisi per qualcuno che vuole davvero una risposta particolare (ad es. "La mia caratteristica è fantastica!"), devi giocare scettico per evitare di commettere errori.

Correlazione != Causazione

Quando facciamo teorie sui dati, spesso vogliamo affermare che "X causa la generazione Y", ad esempio "la lentezza della pagina ha causato il calo degli utenti che fanno clic". Persino xkcd sa che non è possibile stabilire semplicemente il rapporto causale a causa della correlazione. Considerando come si convalida una teoria di causalità, si può solitamente sviluppare un'idea chiara di quanto sia credibile una teoria causale.

A volte, si cerca di mantenere una correlazione come significativa affermando che, anche se non esiste una relazione causale tra A e B, deve esserci qualcosa alla base della coincidenza, in modo che un segnale possa essere un buon indicatore o sostituto dell'altro. Quest'area è pericolosa per più problemi di verifica delle ipotesi; come xkcd sa anche, considerati un numero sufficiente di esperimenti e dimensioni sufficienti, alcuni degli indicatori si allineeranno per un esperimento specifico. Ciò non implica che gli stessi indicatori si allineeranno in futuro, quindi hai lo stesso obbligo di considerare una teoria causale come "c'è un effetto nascosto C che causa sia A che B", così da poter provare a convalidare quanto sia plausibile.

Un analista di dati deve spesso affrontare queste domande causali per le persone che vogliono consumare i dati. Dovresti essere chiaro con quei consumatori su cosa si può e non si può dire sulla causalità.

Condividi prima i tuoi contenuti con i colleghi, poi i consumatori esterni

I punti precedenti suggerivano alcuni modi per eseguire i giusti controlli di affidabilità e convalida. Tuttavia, condividere con un compagno è uno dei modi migliori per sforzarti di fare tutto questo. Un collega esperto può fornire feedback qualitativamente diversi rispetto ai consumatori dei tuoi dati, soprattutto perché i consumatori di solito hanno un'agenda. I concorrenti sono utili in più punti dell'analisi. Presto potrai scoprire cose usate dai tuoi colleghi, suggerimenti su aspetti da misurare e ricerche passate. Verso la fine, i compagni sono molto bravi a segnalare stranezze, incongruenze o altre confusione.

Idealmente, dovresti ricevere un feedback da un collega che conosce i dati che stai esaminando, ma anche un collega con un'esperienza di analisi dei dati generica è estremamente utile.

Aspettati e accetta ignoranza ed errori

Ci sono molti limiti a ciò che possiamo imparare dai dati. Nate Silver sostiene fortemente in The Signal and the Noise che solo ammettendo i limiti della nostra certezza possiamo fare progressi per previsioni migliori. Ammettere l'ignoranza è un punto di forza che di solito non viene riconosciuto immediatamente. Al momento è una sensazione spiacevole, ma è un grande vantaggio per te e il tuo team sul lungo periodo. Ci si sente ancora peggio se commetti un errore e lo scopri in un secondo momento (o anche troppo tardi), ma gestire attivamente i tuoi errori ti fa sentire rispettoso. Questo aspetto si traduce in credibilità e nell'impatto.

Considerazioni finali

Gran parte del lavoro necessario a svolgere una buona analisi dei dati non è immediatamente evidente ai consumatori della tua analisi. Il fatto di aver controllato attentamente le dimensioni della popolazione e convalidato che l'effetto sia stato coerente nei vari browser probabilmente non raggiungerà la consapevolezza delle persone che cercano di prendere decisioni a partire da questi dati. Questo spiega anche perché una buona analisi dei dati richiede più tempo di quanto sembri per la maggior parte delle persone (soprattutto quando si vede solo l'output finale). Parte del nostro lavoro di analisti è quello di informare gradualmente i consumatori di insight basati sui dati su quali sono questi passaggi e perché sono importanti.

La necessità di tutte queste manipolazioni ed esplorazioni dei dati definisce anche i requisiti per un linguaggio e un ambiente di analisi dei dati validi. Abbiamo a disposizione molti strumenti per esaminare i dati. Strumenti e linguaggi diversi sono più adatti alle varie tecniche discusse sopra; scegliere lo strumento giusto è una competenza importante per un analista. Le funzionalità dello strumento con cui ti senti più a tuo agio non devono essere limitate; il tuo compito è fornire insight reali, non applicare uno strumento specifico.

Questa procedura viene a volte chiamata "analisi iniziale dei dati". Consulta l' articolo di Wikipedia sull'analisi dei dati ↩
Tecnicamente, dovrebbe essere iterativa solo se si esegue un'analisi esplorativa, non un'analisi confermativa. ↩