Analyse de données efficace

Auteur: Patrick Riley

Nous remercions tout particulièrement: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook et Barry Rosenberg.

Historique

Présentation

Dégager la vérité et des insights à partir d'une pile de données est une tâche puissante, mais sujette aux erreurs. Les meilleurs analystes de données et ingénieurs soucieux des données développent la réputation de prononcés crédibles à partir des données. Mais que fait-il pour lui donner de la crédibilité ? J'entends souvent des adjectifs tels que prudent et méthodique, mais que font réellement les analystes les plus prudents et méthodiques ?

Cette question n'est pas simple, en particulier compte tenu du type de données que nous recueillons régulièrement chez Google. Non seulement nous travaillons généralement avec de très grands jeux de données, mais ces jeux de données sont extrêmement riches. C'est-à-dire que chaque ligne de données a généralement de très nombreux attributs. Lorsque vous combinez cela avec les séquences d'événements temporelles d'un utilisateur donné, il existe un très grand nombre de façons d'examiner les données. Comparez cela à une expérience de psychologie académique classique où il est facile pour le chercheur d'examiner chaque point de données. Les problèmes posés par nos vastes ensembles de données de grande dimension sont très différents de ceux rencontrés dans la majeure partie de l'histoire de la recherche scientifique.

Ce document résume les idées et les techniques utilisées par des analystes méthodiques et minutieux sur de grands ensembles de données de grande dimension. Bien que ce document se concentre sur les données des journaux et l'analyse expérimentale, la plupart de ces techniques sont plus largement applicables.

Le reste du document comprend trois sections couvrant différents aspects de l'analyse de données:

  • Technique: idées et techniques pour manipuler et examiner vos données.
  • Processus: recommandations sur la façon dont vous abordez vos données, les questions à poser et les éléments à vérifier.
  • État d'esprit: comment travailler avec les autres et communiquer des insights.

Technique

Examinons quelques techniques permettant d'examiner vos données.

Examiner vos distributions

La plupart des professionnels utilisent des métriques récapitulatives (moyenne, médiane, écart type, etc.) pour communiquer sur les distributions. Cependant, il est généralement recommandé d'examiner des représentations de distribution beaucoup plus riches en générant des histogrammes, des fonctions de distribution cumulative (CDF), des graphiques quantile-quantile (Q-Q), etc. Ces représentations plus riches vous permettent de détecter des caractéristiques importantes des données, telles que le comportement multimodal ou une classe significative d'anomalies.

Tenez compte des anomalies

Examinez attentivement les anomalies, car elles peuvent être des canaris dans la mine de charbon et indiquer des problèmes plus fondamentaux pour votre analyse. Vous pouvez exclure les anomalies de vos données ou les regrouper dans une catégorie "inhabituelle", mais vous devez vous assurer de savoir pourquoi les données se retrouvent dans cette catégorie.

Par exemple, examiner les requêtes qui enregistrent le plus petit nombre de clics peut révéler des clics sur des éléments que vous ne comptabilisez pas. Si vous examinez les requêtes enregistrant le plus grand nombre de clics, vous pouvez identifier des clics que vous ne devriez pas comptabiliser. D'autre part, il peut y avoir des valeurs aberrantes que vous ne pourrez jamais expliquer. Vous devez donc faire attention au temps que vous consacrez à cette tâche.

Tenir compte du bruit

Le hasard existe et va nous induire en erreur. Certaines personnes pensent : "Google a tellement de données ; le bruit disparaît." Ce n'est tout simplement pas vrai. Chaque nombre ou résumé des données que vous produisez doit être associé à une notion de confiance dans cette estimation (à l'aide de mesures telles que les intervalles de confiance et les p-values).

Consulter des exemples

Chaque fois que vous produisez un nouveau code d'analyse, vous devez examiner des exemples issus des données sous-jacentes et la façon dont votre code les interprète. Il est presque impossible de produire un code fonctionnel d'une complexité quelconque sans cette étape. Votre analyse extrait de nombreux détails des données sous-jacentes pour produire des résumés utiles. En examinant la complexité complète des exemples individuels, vous pouvez vous assurer que votre synthèse est raisonnable.

La façon dont vous échantillonnez ces exemples est importante:

  • Si vous classez les données sous-jacentes, examinez les exemples appartenant à chaque classe.
  • Si la classe est plus grande, examinez davantage d'échantillons.
  • Si vous calculez un nombre (par exemple, le temps de chargement de la page), assurez-vous d'examiner des exemples extrêmes (les 5% les plus rapides et les plus lents, peut-être ; vous savez à quoi ressemble votre distribution) ainsi que les points dans l'espace des mesures.

Segmenter vos données

Le découpage consiste à séparer vos données en sous-groupes et à examiner les valeurs des métriques de chaque sous-groupe séparément. Nous décomposons généralement des données en fonction de dimensions telles que le navigateur, les paramètres régionaux, le domaine, le type d'appareil, etc. Si le phénomène sous-jacent est susceptible de fonctionner différemment selon les sous-groupes, vous devez diviser les données pour confirmer si c'est bien le cas. Même si vous ne vous attendez pas à ce que le découpage produit des résultats différents, l'analyse de quelques tranches pour vérifier la cohérence interne vous permet de vous assurer que vous mesurez la bonne chose. Dans certains cas, une tranche spécifique peut comporter des données de mauvaise qualité, une interaction utilisateur rompue ou, d'une manière ou d'une autre, fondamentalement différente.

Chaque fois que vous segmentez des données pour comparer deux groupes (par exemple, test/contrôle, ou même "temps A" et "temps B"), vous devez tenir compte de ces variations. On parle de changement de combinaison lorsque la quantité de données dans les tranches de chaque groupe est différente. Le paradoxe de Simpson et d'autres confusions peuvent en résulter. En règle générale, si la quantité relative de données dans une tranche est la même dans les deux groupes, vous pouvez effectuer une comparaison en toute sécurité.

Tenir compte de l'importance pratique

Avec un grand volume de données, il peut être tentant de se concentrer uniquement sur l'importance statistique ou de se focaliser sur les détails de chaque bit de données. Mais vous devez vous poser la question suivante : "Même s'il est vrai que la valeur X est supérieure de 0,1% à la valeur Y, est-ce important ?" Cela peut être particulièrement important si vous ne parvenez pas à comprendre/catégoriser une partie de vos données. Si vous ne parvenez pas à comprendre certaines chaînes de user-agents dans vos journaux, le fait qu'elles représentent 0,1% ou 10% des données fait une grande différence dans la mesure à laquelle vous devez examiner ces cas.

Il arrive aussi que vous ayez un petit volume de données. De nombreux changements ne semblent pas significatifs d'un point de vue statistique, mais le fait de déclarer que ces changements sont "neutres" ne sont pas les mêmes. Vous devez vous demander : "Quelle est la probabilité qu'il y ait toujours un changement pratiquement significatif ?".

Vérifier la cohérence au fil du temps

Vous devriez presque toujours essayer de segmenter les données par unités de temps, car de nombreuses perturbations des données sous-jacentes se produisent à mesure que nos systèmes évoluent. (Nous utilisons souvent des jours, mais d'autres unités de temps peuvent également être utiles.) Lors du lancement initial d'une fonctionnalité ou d'une nouvelle collecte de données, les professionnels vérifient souvent que tout fonctionne comme prévu. Toutefois, de nombreuses défaillances ou un comportement inattendu peuvent survenir au fil du temps.

Ce n'est pas parce qu'un jour ou un ensemble de jours particulier est considéré comme une valeur aberrante que vous devez supprimer les données correspondantes. Utilisez les données comme une accroche afin de déterminer la raison pour laquelle ce ou ces jours sont différents avant de les supprimer.

L'analyse des données d'un jour à l'autre vous donne également une idée de la variation des données, ce qui pourrait aboutir à des intervalles de confiance ou à des affirmations de pertinence statistique. De manière générale, cela ne devrait pas remplacer le calcul rigoureux d'intervalles de confiance. Toutefois, en cas de modifications importantes, vous pouvez constater qu'elles ne seront statistiquement pertinentes qu'à partir des graphiques d'un jour sur l'autre.

Confirmer et comptabiliser le filtrage

Presque toutes les analyses de données volumineuses commencent par filtrer les données à différentes étapes. Peut-être souhaitez-vous prendre en compte uniquement les utilisateurs aux États-Unis, les recherches sur le Web ou les recherches avec des annonces. Quel que soit le cas, vous devez:

  • Acceptez les règles de filtrage que vous effectuez et spécifiez-les clairement.
  • Comptez la quantité de données filtrées à chaque étape.

Souvent, la meilleure façon de procéder consiste à calculer toutes vos métriques, même pour la population que vous excluez. Vous pouvez ensuite examiner ces données pour répondre à des questions telles que : "Quelle fraction des requêtes le filtrage antispam a-t-il supprimée ?" (Selon la raison pour laquelle vous filtrez, ce type d'analyse peut ne pas toujours être possible.)

Le numérateur et le dénominateur des rapports doivent être clairement indiqués

Les métriques les plus intéressantes sont des ratios de mesures sous-jacentes. Souvent, les filtres intéressants ou d'autres choix de données sont cachés dans les définitions précises du numérateur et du dénominateur. Par exemple, que signifie "Requêtes / Utilisateur" ?

  • Requêtes / Utilisateurs avec une requête
  • Requêtes / Utilisateurs ayant visité Google aujourd'hui
  • Requêtes / Utilisateurs disposant d'un compte actif (oui, je dois définir active)

En étant très clair ici, vous pouvez éviter toute confusion pour vous-même et pour les autres.

Autre cas particulier : les métriques ne peuvent être calculées qu'à partir d'une partie de vos données. Par exemple, "Délai avant clic" signifie généralement "Délai avant clic, compte tenu de la présence d'un clic". Chaque fois que vous examinez une métrique de ce type, vous devez reconnaître ce filtrage et rechercher un changement de filtrage entre les groupes que vous comparez.

Processus

Cette section contient des recommandations sur la façon d'aborder vos données, les questions à poser à leur sujet et les éléments à vérifier.

Validation, description et évaluation distinctes

Je pense que l’analyse de données comporte trois étapes interdépendantes:

  1. Validation1: Est-ce que je pense que les données sont auto-cohérentes, qu'elles ont été collectées correctement et qu'elles représentent ce que je pense qu'elles font ?
  2. Description:quelle est l'interprétation objective de ces données ? Par exemple, "Les utilisateurs effectuent moins de requêtes classées dans la catégorie X", "Dans le groupe de test, le temps entre X et Y est 1% plus long" et "Moins d'utilisateurs accèdent à la page suivante des résultats".
  3. Évaluation:d'après la description, les données nous indiquent-elles que quelque chose de positif se produit pour l'utilisateur, pour Google ou pour le monde entier ?

En séparant ces étapes, vous pouvez plus facilement parvenir à un accord avec les autres. La description doit être des points sur lesquels tout le monde peut être d'accord sur les données. L'évaluation va sans doute éveiller bien plus de débats. Si vous ne séparez pas la description de l'évaluation, il est beaucoup plus probable que vous ne voyiez que l'interprétation des données que vous espérez voir. De plus, l'évaluation a tendance à être beaucoup plus difficile, car établir la valeur normative d'une métrique, généralement par le biais de comparaisons rigoureuses avec d'autres fonctionnalités et métriques, nécessite un investissement important.

Ces étapes ne progressent pas de façon linéaire. Au fur et à mesure que vous explorez les données, vous pouvez passer d'une étape à l'autre, mais vous devez à tout moment savoir à quel stade vous vous trouvez.

Confirmer la configuration des tests et de la collecte des données

Avant d'examiner des données, assurez-vous de bien comprendre le contexte dans lequel elles ont été collectées. Si les données proviennent d'un test, examinez sa configuration. Si elle provient d'une nouvelle instrumentation client, assurez-vous de bien comprendre la manière dont les données sont collectées. Vous pouvez repérer des configurations inhabituelles ou incorrectes, ou des restrictions de remplissage (telles que des données valides uniquement pour Chrome). Tout élément important ici peut vous aider à construire et à vérifier les théories ultérieurement. Vous devez prendre certains points en compte :

  • Si le test est en cours, essayez-le par vous-même. Si ce n'est pas possible, consultez au moins des captures d'écran/descriptions du comportement.
  • Vérifiez si la période du test n'a pas rencontré d'anomalie (jours fériés, lancements importants, etc.).
  • Déterminer les populations d'utilisateurs qui ont été soumises au test.

Vérifier ce qui ne doit pas être modifié

Lors de la phase de validation, avant de répondre réellement à la question qui vous intéresse (par exemple, "L'ajout d'une photo représentant un visage a-t-il augmenté ou diminué le nombre de clics ?"), écartez-vous de toute autre variabilité des données qui pourrait affecter le test. Exemple :

  • Le nombre d'utilisateurs a-t-il changé ?
  • Le nombre correct de requêtes concernées s'est-il affiché dans tous mes sous-groupes ?
  • Les taux d'erreur ont-ils changé ?

Ces questions sont pertinentes à la fois pour les comparaisons tests/contrôles et pour l'examen des tendances dans le temps.

Standard d'abord, personnalisée en deuxième

Lorsque vous examinez de nouvelles fonctionnalités et données, il est particulièrement tentant de vous plonger directement dans les métriques nouvelles ou spéciales de cette nouvelle fonctionnalité. Cependant, vous devez toujours commencer par examiner les métriques standards, même si vous vous attendez à ce qu'elles changent. Par exemple, lorsque vous ajoutez un bloc universel à la page, assurez-vous de bien comprendre l'impact sur les métriques standards telles que les "clics sur les résultats Web" avant de vous plonger dans les métriques personnalisées concernant ce nouveau résultat.

Les métriques standards sont bien mieux validées et plus susceptibles d'être correctes que les métriques personnalisées. Si vos métriques personnalisées n'ont pas d'intérêt par rapport aux métriques standards, il est probable qu'elles soient erronées.

Mesurez deux fois ou plus

Essayez de mesurer le même élément sous-jacent de plusieurs manières, en particulier si vous essayez de capturer un nouveau phénomène. Ensuite, déterminez si ces multiples mesures sont cohérentes. En utilisant plusieurs mesures, vous pouvez identifier les bugs dans le code de mesure ou de journalisation, les fonctionnalités inattendues des données sous-jacentes ou les étapes de filtrage importantes. C'est encore mieux si vous pouvez utiliser différentes sources de données pour les mesures.

Vérifier la reproductibilité

Le découpage et la cohérence au fil du temps sont des exemples particuliers de vérification de la reproductibilité. Si un phénomène est important et significatif, vous devez le voir pour différentes populations d'utilisateurs et différentes périodes. Toutefois, vérifier la reproductibilité ne se limite pas à effectuer ces deux vérifications. Si vous créez des modèles à partir des données, vous voulez qu'ils soient stables, même en cas de petites perturbations dans les données sous-jacentes. L'utilisation de différentes périodes ou de sous-échantillons aléatoires de vos données vous permettra également de déterminer la fiabilité et la reproductibilité de ce modèle.

Si un modèle n'est pas reproductible, vous ne capturez probablement pas un élément fondamental du processus sous-jacent qui a généré les données.

Vérifier la cohérence avec les mesures passées

Souvent, vous calculez une métrique semblable à des éléments qui ont été comptabilisés dans le passé. Vous devez comparer vos métriques à celles déjà enregistrées, même si ces mesures concernent des populations d'utilisateurs différentes.

Par exemple, si vous examinez le trafic de requêtes d'une population spécifique et que vous mesurez que le temps de chargement moyen de la page est de 5 secondes, mais que les analyses précédentes sur tous les utilisateurs ont donné un temps de chargement moyen de la page de 2 secondes, vous devez examiner le problème. Votre nombre convient peut-être à cette population, mais vous devez maintenant faire plus de travail pour le valider.

Vous n'avez pas besoin d'obtenir un accord exact, mais vous êtes sur la même longueur d'onde. Si ce n'est pas le cas, partez du principe que vous avez tort jusqu'à ce que vous puissiez vous convaincre. Les données les plus surprenantes seront une erreur et non une fabuleuse nouvelle information.

Les nouvelles métriques doivent d'abord être appliquées aux anciennes données/fonctionnalités

Si vous créez des métriques (éventuellement en recueillant une nouvelle source de données) et que vous essayez d'en apprendre davantage, vous ne saurez pas si votre nouvelle métrique est correcte. Les nouvelles métriques doivent d'abord être appliquées à une caractéristique ou à des données connues. Par exemple, si vous disposez d'une nouvelle métrique de satisfaction des utilisateurs, vous devez vous assurer qu'elle indique vos meilleures fonctionnalités d'aide à la satisfaction. Si vous disposez d'une nouvelle métrique indiquant où les utilisateurs orientent leur attention vers la page, assurez-vous qu'elle correspond à ce que nous savons grâce aux études sur le suivi oculaire ou les évaluateurs sur la façon dont les images affectent l'attention sur la page. Cela permet une validation lorsque vous apprenez quelque chose de nouveau.

Formuler des hypothèses et rechercher des preuves

En règle générale, l'analyse de données pour un problème complexe est itérative2.Vous découvrirez des anomalies, des tendances ou d'autres caractéristiques des données. Naturellement, vous développerez des théories pour expliquer ces données. Ne vous contentez pas de développer une théorie et de la promettre. Recherchez des preuves (à l'intérieur ou en dehors des données) pour confirmer/refuser cette théorie. Exemple :

  • Si vous voyez quelque chose qui ressemble à une tendance d'apprentissage, vérifiez si elle se manifeste le plus fortement auprès des utilisateurs fréquents.
  • Si vous pensez qu'une anomalie est due au lancement de certaines fonctionnalités, assurez-vous que la population auprès de laquelle la fonctionnalité a été lancée est la seule concernée par cette anomalie. Sinon, assurez-vous que l'ampleur du changement est conforme aux attentes du lancement.
  • Si vous constatez que les taux de croissance des utilisateurs varient dans une langue donnée, essayez de trouver une source externe qui valide ce taux d'évolution de la population d'utilisateurs.

Une bonne analyse de données aura une histoire à raconter. Pour vous assurer qu'il s'agit de la bonne histoire, vous devez vous raconter l'histoire, puis chercher la preuve qu'il s'agit d'une erreur. Vous pouvez vous demander quels tests exécuteriez-vous pour valider ou invalider l'histoire que je raconte ? Même si vous ne pouvez pas ou ne pouvez pas réaliser ces tests, cela peut vous donner des idées sur la façon de valider votre analyse à l'aide des données dont vous disposez.

La bonne nouvelle, c'est que ces théories et expériences possibles peuvent mener à de nouvelles recherches qui vont au-delà de la tentative d'apprentissage d'une caractéristique ou d'une donnée particulière. Vous entrez ensuite dans le domaine de la compréhension non seulement de ces données, mais aussi de la définition de nouvelles métriques et techniques pour toutes sortes d'analyses futures.

L'analyse exploratoire profite de l'itération de bout en bout

Lorsque vous effectuez une analyse exploratoire, effectuez autant d'itérations de l'analyse complète que possible. En règle générale, plusieurs étapes sont nécessaires pour la collecte, le traitement et la modélisation des signaux. Si vous passez trop de temps à perfectionner la toute première étape de vos signaux initiaux, vous passez à côté d'opportunités d'effectuer plus d'itérations dans le même laps de temps. De plus, lorsque vous regardez enfin vos données à la fin, vous pouvez faire des découvertes qui changent votre direction. Par conséquent, vous ne devez pas vous concentrer sur la perfection, mais sur l'obtention de quelque chose de raisonnable. Laissez des notes pour vous et reconnaissez des éléments tels que les étapes de filtrage et les requêtes impossibles à analyser ou inhabituelles, mais ne perdez pas de temps à essayer de toutes les supprimer au début de l'analyse exploratoire.

Soyez attentif aux commentaires

En général, nous définissons différentes métriques autour de la réussite des utilisateurs. Par exemple, les utilisateurs ont-ils cliqué sur un résultat ? Si vous transmettez ensuite ces données au système (ce que nous faisons en réalité à plusieurs endroits), vous créez de nombreuses possibilités de confusion en matière d'évaluation.

Vous ne pouvez pas utiliser la métrique renvoyée à votre système comme base pour évaluer la modification. Si vous diffusez davantage d'annonces qui obtiennent plus de clics, vous ne pouvez pas utiliser "plus de clics" pour déterminer si les utilisateurs sont plus satisfaits, même si "plus de clics" signifie souvent "plus satisfaits". En outre, vous ne devez même pas segmenter les variables que vous avez manipulées, car cela entraînerait des variations du nombre de clics difficiles, voire impossibles à comprendre.

État d'esprit

Cette section explique comment travailler avec d’autres personnes et communiquer des informations.

L’analyse de données commence par des questions, pas des données ou une technique

Il y a toujours une motivation pour analyser des données. La formulation de vos besoins sous forme de questions ou d'hypothèses vous permet de vous assurer que vous collectez les données que vous devriez recueillir et que vous réfléchissez aux éventuelles lacunes dans les données. Bien sûr, les questions que vous posez doivent évoluer au fur et à mesure que vous examinez les données. Cependant, l'analyse sans question finira par être dénuée de but.

Évitez le piège consistant à trouver votre technique préférée et à ne trouver que les parties des problèmes sur lesquelles elle fonctionne. Encore une fois, le fait de créer des questions claires vous aidera à éviter ce piège.

Soyez à la fois sceptique et défendu.

Lorsque vous travaillez avec des données, vous devez devenir à la fois le champion des informations que vous obtenez et le scepticisme à leur égard. Nous espérons que vous trouverez des phénomènes intéressants dans les données que vous examinez. Lorsque vous détectez un phénomène intéressant, posez-vous les questions suivantes:

  • Quelles autres données puis-je collecter pour montrer à quel point c'est génial ?
  • Qu'est-ce qui pourrait l'invalider ?"

Vous devez jouer le rôle de sceptique pour éviter de faire des erreurs, en particulier lorsque vous analysez des personnes qui veulent vraiment une réponse particulière (par exemple, "Ma fonctionnalité est géniale !").

Corrélation != Causalité

Lorsque nous élaborons des théories sur les données, nous voulons souvent affirmer que "X provoque Y" : par exemple, "le ralentissement de la page a incité les utilisateurs à cliquer moins". Même xkcd sait que vous ne pouvez pas simplement établir une causalité en raison de la corrélation. En considérant comment vous valideriez une théorie de la causalité, vous pouvez généralement développer une bonne idée de la crédibilité d'une théorie de causalité.

Parfois, les gens essaient de conserver une corrélation aussi significative en affirmant que même s'il n'y a pas de relation de cause à effet entre A et B, il doit y avoir quelque chose sous-jacent à la coïncidence afin qu'un signal puisse être un bon indicateur ou un bon indicateur de l'autre. Cette zone est dangereuse pour les problèmes de tests d'hypothèses multiples. Comme xkcd le sait également, avec suffisamment de tests et de dimensions, certains signaux s'alignent pour une expérience spécifique. Cela ne signifie pas que les mêmes signaux s'aligneront à l'avenir. Vous aurez donc la même obligation d'envisager une théorie de causalité telle que "il existe un effet caché C qui provoque à la fois A et B" afin que vous puissiez essayer de déterminer dans quelle mesure c'est plausible.

Un analyste de données doit souvent aborder ces questions de causalité pour les personnes qui souhaitent consommer les données. Vous devez être clair avec ces consommateurs sur ce que vous pouvez et ne pouvez pas dire en termes de causalité.

Partagez d'abord avec vos pairs, puis avec les clients externes

Les points précédents ont suggéré quelques façons d'effectuer les bons types de vérification et de validation de la justesse. Mais partager avec un pair est l'un des meilleurs moyens de vous forcer à faire toutes ces choses. Un pair qualifié peut fournir des commentaires qualitativement différents de ceux des consommateurs de vos données, d'autant plus que ceux-ci ont généralement un ordre du jour. Les pairs sont utiles à plusieurs moments de l'analyse. Très tôt, vous pouvez découvrir les pièges connus de vos pairs, les suggestions de choses à mesurer et les recherches passées dans ce domaine. Vers la fin, les pairs sont très doués pour signaler les anomalies, les incohérences ou d'autres confusions.

Idéalement, vous devriez obtenir les commentaires d'un pair qui connaît bien les données que vous examinez, mais même un pair qui ne dispose que d'une expérience générale en analyse de données est extrêmement précieux.

Attendre et accepter l'ignorance et les erreurs

Les enseignements que nous pouvons tirer des données sont nombreux. Dans The Signal and the Noise, Nate Silver explique clairement que ce n'est qu'en admettant les limites de notre certitude que nous pouvons améliorer la prédiction. Reconnaître l'ignorance est une force qui ne se récompense pas immédiatement. C'est vraiment désagréable à ce moment-là, mais c'est un grand avantage pour vous et votre équipe à long terme. C'est encore pire lorsque vous faites une erreur et que vous la découvrez plus tard (ou même trop tard !), mais admettre vos erreurs de manière proactive vous fait respecter. Ce respect se traduit par de la crédibilité et de l'impact.

Conclusion

Une grande partie du travail pour effectuer une bonne analyse des données n'est pas immédiatement évidente pour les utilisateurs de votre analyse. Le fait d'avoir soigneusement vérifié la taille de la population et vérifié que l'effet était cohérent sur tous les navigateurs ne sera probablement pas pris en compte par les personnes essayant de prendre des décisions à partir de ces données. Cela explique également pourquoi une bonne analyse des données prend plus de temps qu'il n'y paraît pour la plupart des utilisateurs (en particulier lorsqu'ils ne voient que le résultat final). Une partie de notre travail en tant qu'analystes consiste à éduquer progressivement les consommateurs d'insights basés sur les données sur ce que sont ces étapes et pourquoi elles sont importantes.

La nécessité de toutes ces manipulations et explorations de vos données définit également les exigences pour un langage et un environnement d'analyse de données de qualité. Nous disposons de nombreux outils pour examiner les données. Différents outils et langages sont mieux adaptés aux diverses techniques abordées ci-dessus. Choisir le bon outil est une compétence importante pour un analyste. Vous ne devez pas être limité par les capacités de l'outil avec lequel vous êtes le plus à l'aise. Votre travail consiste à fournir des informations réelles et non à appliquer un outil particulier.

 


  1. Cette technique est parfois appelée "analyse initiale de données". Consultez l' article Wikipédia sur l'analyse de données 

  2. Techniquement, il ne doit s'agir d'une analyse itérative que si vous effectuez une analyse exploratoire, et non une analyse de confirmation.