Une fois que vous avez collecté vos données, effectuez une analyse exploratoire des données pour identifier et résoudre les problèmes de qualité des données. Il s'agit d'une étape essentielle du processus de Marketing Mix Modeling (MMM), car elle vous permet d'évaluer les données pour confirmer qu'elles représentent de manière précise les efforts marketing, les réponses des clients et d'autres métriques pertinentes. En corrigeant les problèmes détectés lors de l'analyse exploratoire des données, vous pouvez améliorer la fiabilité de la sortie du modèle.
Le processus de base pour effectuer une analyse exploratoire des données est le suivant :
- Examinez les données afin d'identifier les données manquantes ou incomplètes.
- Corrigez les valeurs manquantes dans vos fichiers d'entrée bruts.
- Évaluez l'exactitude des données.
- Corrigez les anomalies, les données aberrantes ou les imprécisions dans les données.
- Vérifiez la corrélation entre vos KPI et vos variables média et de contrôle.
Il existe de nombreuses façons d'aborder l'analyse exploratoire des données. C'est pourquoi Meridian ne fournit pas de visualisations pour ce processus. Nous vous recommandons de trouver le juste équilibre, en fonction de vos besoins, entre une analyse détaillée et précise pour plus de confiance et une vérification rapide des données de haut niveau qui fournit des insights moins détaillés.
Lorsque vous créez vos propres visualisations, suivez ces consignes qui vous aideront à effectuer l'analyse exploratoire des données :
Vérifiez la complétude des données : recherchez les valeurs manquantes dans les données. Vous pouvez créer des graphiques indiquant le pourcentage de données complètes pour chaque variable (canal), puis examiner les variables qui apparaissent comme incomplètes.
Pour affiner davantage votre analyse exploratoire des données, vous pouvez créer des visualisations qui montrent le nombre d'observations par année, mois, semaine et jour de la semaine. Recherchez des niveaux d'observations anormalement plus faibles pour une période donnée.
Vérifiez l'exactitude des données : assurez-vous que les données sont exactes et qu'elles ne présentent pas d'anomalies ou de valeurs aberrantes qui pourraient fausser les résultats. La création de visualisations pour vérifier l'exactitude des données peut inclure la comparaison de la part des dépenses média pour chaque canal et la vérification de la tendance d'un canal afin d'identifier tout élément inhabituel. Vous pouvez comparer ces visualisations au plan média ou collaborer avec l'équipe marketing pour déterminer si les données sont suffisamment précises et détaillées.
Vérifiez la taille des canaux : examinez la part des dépenses du canal. Il peut être difficile d'estimer les canaux dont la part des dépenses est très faible. Vous pouvez choisir de les combiner avec d'autres canaux.
Vérifiez la variabilité de l'exécution média des canaux : il peut être difficile d'estimer les canaux dont la variabilité de l'exécution média (impressions, clics, etc.) est faible. Envisagez d'utiliser un a priori personnalisé si vous disposez d'informations pertinentes.
Vérifiez la corrélation entre les variables : bien que la corrélation entre les KPI et les variables média et de contrôle ne soit pas obligatoire, il peut être utile de créer des visualisations pour vérifier la corrélation dans les cas d'utilisation suivants :
Mesurer la corrélation entre les variables média et de contrôle pour voir s'il existe une relation inattendue. Cela peut vous aider à décider de conserver ou de supprimer une variable média ou de contrôle spécifique.
Identifier la multicolinéarité Lorsqu'au moins deux variables média et de contrôle sont fortement corrélées entre elles, elles créent une multicolinéarité, ce qui peut entraîner des difficultés pour les modèles de régression lorsqu'ils calculent l'impact des variables colinéaires. En identifiant la multicolinéarité lors de votre analyse des données, vous pouvez décider des variables à inclure dans votre modèle ou à en exclure.
Une fois que vous êtes certain que vos données sont exactes et complètes, vous pouvez charger les données dans un format compatible, puis créer votre modèle.
Vérifications automatisées des données
Meridian propose des vérifications automatisées des données permettant de détecter les problèmes graves qui entraîneront une non-convergence ou des résultats de modèle non fiables. Ces vérifications sont effectuées lors des appels sample_posterior ou lorsque l'objet Meridian est initialisé. Si un problème critique est détecté dans les données, l'échantillonnage a posteriori ne s'exécutera pas. À la place, un message d'erreur s'affichera en détaillant le problème critique et les actions à effectuer pour le résoudre. Ces vérifications des données permettent de gagner du temps et d'améliorer la fiabilité des modèles en vous alertant en cas de problèmes critiques avant l'échantillonnage complet a posteriori. Toutes les vérifications automatisées des données sont effectuées sur les données mises à l'échelle automatiquement utilisées pour ajuster le modèle. Pour en savoir plus sur la mise à l'échelle des données par Meridian, consultez Données d'entrée.
Les vérifications critiques suivantes sont effectuées automatiquement sur votre ensemble de données :
Corrélation par paires
La corrélation par paires de Pearson est calculée entre toutes les unités de traitement mises à l'échelle (y compris la couverture $\times$ la fréquence mises à l'échelle pour les canaux avec couverture et fréquence et les canaux naturels avec couverture et fréquence) et les variables de contrôle mises à l'échelle.
Pour un modèle géographique, la corrélation par paires est d'abord calculée pour toutes les zones géographiques et toutes les périodes. Autrement dit, pour les deux variables $\mathbf{X}_1$ et $\mathbf{X}_2$, $Corr(\mathbf{X}_1, \mathbf{X}_2)$ est calculé, où
\[ \begin{align*} \mathbf{X}_1 &= ( x_{g_1, t_1, 1}, x_{g_1, t_2, 1}, \cdots, x_{g_2, t_1, 1}, x_{g_2, t_2, 1}, \cdots ) \\ \mathbf{X}_2 &= ( x_{g_1, t_1, 2}, x_{g_1, t_2, 2}, \cdots, x_{g_2, t_1, 2}, x_{g_2, t_2, 2}, \cdots ). \end{align*} \]
Une
ERRORest déclenchée si une paire de variables présente une corrélation presque parfaite (la valeur absolue de leur corrélation par paires dépasse le seuil par défaut de 0,999 pour toutes les zones géographiques et toutes les périodes).f'Some variables have perfect pairwise correlation across all times and geos. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'Dans ce cas, pour chaque paire de variables listée dans
{var_pairs}(dans le message d'erreur), supprimez l'une des variables redondantes deInputDataet réexécutezsample_posterior.Pour un modèle national, une
ERRORest déclenchée si la valeur absolue de la corrélation par paires entre une paire de variables est supérieure à 0,999 pour toutes les périodes. De nouveau, supprimez du modèle l'une des variables redondantes mentionnées dans le message d'erreur.f'Some variables have perfect pairwise correlation across all times. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'
Multicolinéarité
Pour évaluer la multicolinéarité, le facteur d'inflation de la variance (FIV) est calculé pour toutes les unités de traitement mises à l'échelle (y compris la couverture $\times$ la fréquence mises à l'échelle pour les canaux avec couverture et fréquence et les canaux naturels avec couverture et fréquence) et les variables de contrôle mises à l'échelle. Un FIV estime dans quelle mesure la variance d'une variable explicative est gonflée en raison de la colinéarité avec d'autres variables du modèle. Un FIV de 1 indique l'absence de colinéarité, tandis que des valeurs plus élevées suggèrent des niveaux croissants de multicolinéarité. Une multicolinéarité élevée peut augmenter la largeur des intervalles crédibles des coefficients, ce qui rend leur inférence a posteriori moins fiable.
Pour un modèle géographique, le FIV est d'abord calculé pour chaque variable dans toutes les zones géographiques et périodes. Une
ERRORest déclenchée si une variable peut être exprimée presque parfaitement comme une combinaison linéaire d'autres variables (le FIV dépasse alors le seuil par défaut de 1 000).f'Some variables have extreme multicollinearity (VIF > 1000) across all times and geos. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'Dans ce cas, supprimez toute variable redondante listée dans
{high_vif_vars}(dans le message d'erreur) qui pourrait être une combinaison linéaire d'autres variables, ou combinez ces variables.Pour un modèle national, le FIV est calculé pour chaque variable dans toutes les périodes. Une
ERRORest déclenchée si le FIV d'une variable dépasse le seuil par défaut de 1 000. De nouveau, supprimez ou combinez les variables redondantes mentionnées dans le message d'erreur.f'Some variables have extreme multicollinearity (with VIF > 1000) across all times. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'
Écart-type du KPI
Cette vérification calcule l'écart-type du KPI mis à l'échelle dans toutes les zones géographiques et périodes pour un modèle géographique, ou dans toutes les périodes pour un modèle national. Une
ERRORest déclenchée lorsque le KPI mis à l'échelle est presque totalement constant, ce qui est indiqué par un écart-type inférieur à 1e-4. Cela signifie qu'il n'y a aucun signal dans la variable de réponse. Vous devez vérifier si des erreurs de saisie de données se sont produites ou reconsidérer la faisabilité de la modélisation statistique avec cet ensemble de données.f'{kpi} is constant across all geos and times, indicating no signal in the data. Please fix this data error.'Écart-type des variables explicatives
Cette vérification évalue l'écart-type des contrôles et des traitements mis à l'échelle (y compris la couverture mise à l'échelle pour les canaux avec couverture et fréquence et les canaux naturels avec couverture et fréquence). Étant donné que le modèle Meridian inclut l'effet temporel principal $\mu_t$ (et l'effet géographique principal $\tau_g$ pour les données au niveau géographique), nous évaluons la variation de ces variables mises à l'échelle séparément selon la dimension temporelle et la dimension géographique (le cas échéant) pour les raisons suivantes.
Variation selon la zone géographique
L'écart-type des variables mises à l'échelle selon la dimension géographique n'est évalué que pour les ensembles de données au niveau géographique, car le modèle national ne comporte qu'une seule zone géographique. Une
ERRORse produit si vous avez définiknots = n_timeset que vous avez une variable qui ne varie pas selon la zone géographique (il peut s'agir d'une variable au niveau national incluse dans un ensemble de données au niveau géographique, par exemple). Lorsqueknots = n_times, chaque période dispose de son propre paramètre. Une variable au niveau national ne varie qu'au fil du temps, et non en fonction de la zone géographique. Par conséquent, ce type de variable est parfaitement colinéaire avec le temps et est redondant avec un modèle qui comporte un paramètre pour chaque période. "Redondant" signifie que vous pouvez conserver la variable au niveau national ou définirknots < n_times. Le choix de la variable dépend de vos objectifs d'interprétation.f'The following {data_name} variables do not vary across geos, making a model with n_knots=n_time unidentifiable. This can lead to poor model convergence. Since these variables only vary across time and not across geo, they are collinear with time and redundant in a model with a parameter for each time period. To address this, you can either: (1) decrease the number of knots (n_knots < n_time), or (2) drop the listed variables that do not vary across geos.'Variation dans le temps
L'écart-type des variables mises à l'échelle selon la dimension temporelle est évalué pour les ensembles de données au niveau géographique et national.
Pour un modèle géographique, une
ERRORse produit lorsque vous avez une variable qui ne varie pas dans le temps et qui est parfaitement colinéaire avec l'effet géographique principal $\tau_g$. Comme cette variable redondante entraîne une mauvaise convergence du modèle, vous devez supprimer la variable qui ne varie pas dans le temps.f'The following {data_name} variables do not vary across time making a model with geo main effects unidentifiable. This can lead to poor model convergence. Since these variables only vary across geo and not across time, they are collinear with geo and redundant in a model with geo main effects. To address this, drop the listed variables that do not vary across time.'Pour un modèle national, une variable qui ne varie pas dans le temps est un terme constant qui n'apporte aucun signal et nuit à la convergence du modèle. Vous devez supprimer cette variable constante du modèle.
f'The following {data_name} variables do not vary across time, which is equivalent to no signal at all in a national model. This can lead to poor model convergence. To address this, drop the listed variables that do not vary across time.'