Contrôles qualité post-modélisation

Accéder à :

Effectuer des contrôles qualité

Une fois votre modèle entraîné, vous devez évaluer son intégrité et sa stabilité avant de vous fier à ses résultats pour l'inférence causale. Ces vérifications de la qualité post-modélisation sont conçues pour diagnostiquer les problèmes courants liés à la convergence, à la spécification et à la vraisemblance des modèles.

Grâce à ces vérifications, vous pouvez identifier les problèmes potentiels, comprendre comment vos données ont inspiré votre modèle, et vous assurer que les résultats du modèle sont fiables et pertinents pour votre activité.

Exécutez la commande suivante pour générer les résultats de tous les diagnostics nécessaires sur cette page :

from meridian.analysis.review import reviewer

reviewer.ModelReviewer(mmm).run()

Interpréter l'état d'un diagnostic

Chaque diagnostic effectué sur cette page génère l'un des trois états suivants. Voici ce que signifie chacun d'eux :

  • PASS : cet état est purement informatif, et aucune action n'est requise de la part de l'utilisateur.

  • REVIEW : cet état s'affiche lorsqu'un résultat dépend du contexte métier et qu'il ne s'agit pas clairement d'un Pass ou d'un Fail. Examinez manuellement le résultat pour déterminer si une action supplémentaire est nécessaire. Vous pouvez généralement continuer avec un état REVIEW, à condition d'avoir évalué le résultat et compris ses implications.

  • FAIL : il s'agit d'un indicateur critique qui signifie que la vérification a détecté un problème important. Nous vous recommandons vivement de résoudre le problème avant de continuer, car il est possible que les résultats du modèle ne soient pas fiables pour l'inférence causale.

Convergence

La convergence du modèle est une condition préalable fondamentale avant d'interpréter les estimations de tout modèle bayésien, tel que Meridian. Sans convergence, les estimations sont arbitraires et ne représentent pas fidèlement la distribution a posteriori.

Meridian utilise le facteur de réduction d'échelle potentiel Gelman & Rubin (1992) (R-hat) pour diagnostiquer la convergence. R-hat compare la variance entre les chaînes à la variance au sein de chaque chaîne. Si les chaînes ont convergé, ces variances seront presque identiques et la valeur R-hat sera proche de 1.

Afin de fournir un signal unique et clair pour l'intégralité du modèle, Meridian indique la valeur max_r_hat trouvée pour tous les paramètres du modèle. Cette valeur unique détermine l'état de convergence global du modèle.

Condition État Recommandation
max_r_hat < 1.2 PASS Le modèle a probablement convergé, car tous les paramètres ont des valeurs R-hat inférieures à 1,2.
max_r_hat >= 1.2 et < 10 FAIL Le modèle n'a pas encore convergé complètement, et la valeur max_r_hat du paramètre X est Y. Inspectez manuellement les paramètres avec des valeurs R-hat élevées afin de déterminer si les résultats sont acceptables pour votre cas d'utilisation. Vous pouvez également envisager d'augmenter les itérations MCMC ou d'enquêter pour déterminer si la spécification du modèle est incorrecte.
max_r_hat >= 10 FAIL Le modèle n'a pas convergé, et la valeur max_r_hat du paramètre X est Y. Avant de continuer, nous vous recommandons d'augmenter les itérations MCMC ou d'enquêter pour déterminer si la spécification du modèle est incorrecte (a priori, multicolinéarité, etc.).

Si la valeur max_r_hat de votre modèle est supérieure ou égale à 1,2, vous devez en rechercher la cause avant de vous fier aux résultats du modèle. Pour résoudre les problèmes de convergence :

  • Augmentez les itérations MCMC : commencez par augmenter le nombre d'itérations MCMC, car le modèle peut avoir besoin de plus de temps pour explorer la distribution a posteriori et atteindre un état stable.

  • Examinez le modèle : si le problème de convergence persiste après l'augmentation du nombre d'itérations, enquêtez pour déterminer si la spécification du modèle est incorrecte. Par exemple, vous pouvez réexaminer attentivement vos a priori et vérifier s'il existe une multicolinéarité élevée entre vos prédicteurs.

Pour en savoir plus, consultez Obtenir la convergence MCMC.

Référence négative

Dans Meridian, la référence représente le résultat attendu (par exemple, les ventes ou les conversions) dans le scénario contrefactuel où toutes les variables de traitement sont définies sur leurs valeurs de référence. En d'autres termes, elle nous aide à comprendre ce qui serait advenu du résultat si vous n'aviez pas interagi avec des médias payants, des médias naturels ou d'autres traitements non média au cours de la période d'analyse.

Il est essentiel d'estimer précisément la référence, car elle sert de base pour déterminer l'impact incrémental de vos efforts marketing. Une référence inexacte peut entraîner des interprétations erronées importantes de l'impact réel de votre marketing.

Étant donné que le résultat ne peut généralement pas être négatif, une référence qui passe à des valeurs négatives indique une erreur statistique. Toutefois, il est important d'être précis sur la gravité. Comme tous les modèles statistiques, Meridian comporte une marge d'erreur. Par conséquent, une petite baisse occasionnelle vers des valeurs négatives ne constitue pas forcément un problème majeur. Toutefois, une référence systématiquement négative pose évidemment problème. Elle suggère qu'en l'absence de marketing, vos ventes auraient été constamment négatives, ce qui n'a aucun sens dans un scénario réel. Il s'agit d'un signal fort indiquant que le modèle surestime les effets de traitement, probablement en attribuant à tort la croissance naturelle ou d'autres effets positifs non mesurés à vos variables de traitement.

Meridian étant un modèle statistique et probabiliste, nous pouvons faire la distinction entre ces scénarios en évaluant la référence de manière probabiliste, plutôt qu'en examinant une seule estimation ponctuelle. La métrique clé à évaluer est la probabilité a posteriori que la référence, agrégée sur toute la période, soit négative. Une probabilité élevée de ce type révèle une erreur statistique importante et indique que le modèle doit être ajusté. Pour en savoir plus, consultez Évaluer une référence négative.

Meridian évalue cette probabilité pour vous aider à diagnostiquer votre modèle :

Condition État Recommandation
Probabilité de référence négative < 0.2 PASS La probabilité a posteriori que la référence soit négative correspond à X. Pour le confirmer, nous vous recommandons d'inspecter visuellement la série temporelle de référence dans les graphiques d'ajustement du modèle.
La probabilité de référence négative est comprise entre 0.2 et 0.8. REVIEW La probabilité a posteriori que la référence soit négative correspond à X. Cela indique que la série temporelle de référence présente parfois des valeurs négatives. Nous vous recommandons d'inspecter visuellement la série temporelle de référence dans les graphiques d'ajustement du modèle, mais ne vous inquiétez pas trop. Une baisse occasionnelle et faible peut indiquer une erreur statistique mineure, inhérente à tout modèle.
Probabilité de référence négative > 0.8 FAIL La probabilité a posteriori que la référence soit négative correspond à X. Cette probabilité élevée indique une erreur statistique et montre clairement que le modèle doit être ajusté. Le modèle surévalue probablement vos traitements. Pour résoudre ce problème, envisagez d'ajuster les paramètres, les données ou les a priori du modèle.

Si la probabilité de référence négative est élevée (supérieure à 0,8) pour votre modèle, nous vous recommandons d'examiner la spécification, les variables de contrôle et le DAG de votre modèle. Pour en savoir plus, consultez Ajuster une référence négative ou faible.

Valeur-p prédictive a posteriori (PPP) bayésienne

La valeur-p prédictive a posteriori (PPP) bayésienne est un outil de diagnostic performant qui vérifie l'adéquation globale de votre modèle. Elle est parfois appelée "valeur-p bayésienne" et répond à la question suivante : "Les données simulées par mon modèle ressemblent-elles aux données réelles que j'ai observées ?". Si le modèle a correctement appris les schémas sous-jacents des données, les données qu'il simule devraient être statistiquement indiscernables des données réelles. Si les données simulées semblent complètement différentes, cela indique clairement que le modèle est mal spécifié et qu'il n'est pas adapté aux données. Pour en savoir plus, consultez la section 6.3 de Bayesian Data Analysis.

Pour effectuer cette vérification, Meridian utilise la somme totale du résultat (pour toutes les zones géographiques et toutes les périodes) comme statistique de test. La vérification consiste à comparer la distribution du résultat total attendu ($T(y_{\text{exp}})$) à partir de ses échantillons a posteriori au résultat total observé unique ($T(y)$). Pour effectuer cette comparaison facilement, calculez la valeur-p unilatérale, ou le rang centile, de la somme totale observée ($T(y)$) dans la distribution des sommes totales attendues, qui est calculée comme suit :

$$ \frac{1}{S} \sum_{s=1}^{S} \mathbb{I}(T(y_{\text{exp}}^{(s)}) \geq T(y)), $$

où $S$ est le nombre total d'échantillons a posteriori. Avec ce calcul, un ajustement "extrême" ou "médiocre" du modèle se produit si les données observées se trouvent dans la queue complètement à gauche (valeur-p proche de 0) ou dans la queue complètement à droite (valeur-p proche de 1) de la distribution prédictive a posteriori du résultat attendu. Pour les rapports, la valeur-p est transformée de sorte que les valeurs proches de 0 représentent les deux queues extrêmes (pour correspondre à l'interprétation d'une valeur-p fréquentiste). L'hypothèse nulle conceptuelle est que les données observées ont été générées par le modèle. L'hypothèse nulle est "rejetée", pour ainsi dire, si la valeur-p est inférieure à un seuil prédéterminé.

Condition État Recommandation
Valeur PPP bayésienne >= 0.05 PASS La valeur-p prédictive a posteriori bayésienne est égale à X. Le résultat total observé est cohérent avec la distribution prédictive a posteriori du modèle.
Valeur PPP bayésienne < 0.05 FAIL La valeur-p prédictive a posteriori bayésienne est égale à X. Le résultat total observé est une valeur aberrante extrême par rapport aux résultats totaux attendus du modèle, ce qui suggère un manque d'ajustement systématique. Pour résoudre ce problème, nous vous recommandons de vérifier la qualité des données d'entrée et de réexaminer la spécification du modèle (a priori, transformations, etc.).

Un état FAIL pour la valeur PPP indique clairement une spécification incorrecte du modèle (variables manquantes, problèmes de données non détectés par l'analyse exploratoire des données, a priori incorrects, hypothèses erronées concernant la régression de l'adstock, la saturation ou la référence, etc.). Nous vous recommandons d'examiner attentivement la qualité de vos données d'entrée pour détecter toute anomalie, valeur aberrante ou erreur dans les variables de KPI, média et de contrôle. Réexaminez également la spécification du modèle, en étant particulièrement attentif au choix des a priori, à la référence et à l'adéquation des transformations Adstock et Hill. Enfin, comparez le résultat de la valeur PPP bayésienne à d'autres diagnostics de modèle critiques, comme la convergence, le coefficient de détermination et les graphiques de résidus, afin d'obtenir une vue globale des performances du modèle.

Qualité de l'adéquation

Les métriques de qualité d'adéquation déterminent dans quelle mesure les prédictions d'un modèle correspondent aux données réelles observées. Elles permettent de vérifier la fiabilité, mais doivent être interprétées avec précaution, car l'objectif principal d'un MMM est d'obtenir une inférence causale précise, et non une précision prédictive. Meridian génère trois métriques standards :

  • Coefficient de détermination : proportion de variance dans la variable de résultat expliquée par le modèle. Plus cette valeur est proche de 1, meilleure est l'adéquation.

  • Erreur absolue moyenne en pourcentage (EAMP) : écart absolu moyen en pourcentage entre les valeurs prédites et réelles. Plus cette valeur est proche de 0 %, mieux c'est.

  • Erreur absolue moyenne pondérée en pourcentage (EAMPP) : variante de l'EAMP où les erreurs sont pondérées par la valeur du résultat réel (par exemple, les revenus). Elle est souvent préférée à l'EAMP, car elle accorde moins d'importance aux zones géographiques et aux périodes où il y a peu de résultats (en tenir compte pourrait augmenter la métrique d'erreur).

Ces métriques sont fournies pour chaque modèle. Elles servent principalement d'outil de comparaison relative avec d'autres modèles candidats.

Condition État Recommandation
Coefficient de détermination > 0 PASS Coefficient de détermination = X, EAMP = Y et EAMPP = Z. Ces métriques de qualité d'ajustement sont destinées à servir de guide et de comparaison relative.
Coefficient de détermination <= 0 REVIEW Coefficient de détermination = X, EAMP = Y et EAMPP = Z. Un coefficient de détermination négatif indique un conflit potentiel entre vos a priori et les données, et nécessite une investigation. Si ce conflit est intentionnel (en raison d'un a priori informatif), aucune autre action n'est requise. S'il est involontaire, nous vous recommandons d'assouplir vos a priori pour qu'ils soient moins restrictifs.

Généralement, ces métriques de qualité d'ajustement sont associées à l'état PASS, car elles sont destinées à servir de guide et de comparaison relative. Toutefois, si le coefficient de détermination génère une valeur négative, Meridian indiquera l'état REVIEW. Un coefficient de détermination négatif découle souvent d'a priori trop informatifs qui entrent en conflit avec les schémas de vos données. Ce conflit est un signal de diagnostic clair, mais il n'est pas intrinsèquement "mauvais". Vous devez en tenir compte en fonction de vos objectifs de modélisation, car le conflit peut être intentionnel. Par exemple, vous pouvez utiliser un a priori élevé basé sur des tests pour contrer délibérément un biais connu (comme un facteur de confusion manquant) qui, selon vous, existe dans les données d'observation. Dans ce scénario, le coefficient de détermination négatif met simplement en évidence la tension que vous avez introduite.

Par conséquent, un état REVIEW vous invite à examiner pourquoi ce conflit se produit. Si le conflit est involontaire (et non un choix délibéré comme dans l'exemple ci-dessus), nous vous recommandons de revoir et d'assouplir vos a priori pour qu'ils soient moins restrictifs. Si le problème persiste, examinez la structure du modèle pour détecter d'autres problèmes, comme des variables clés manquantes ou des hypothèses incorrectes sur les relations entre vos prédicteurs et le résultat. Pour en savoir plus, consultez Coefficient de détermination (r-carré) négatif.

Comparaison entre la valeur PPP bayésienne et le coefficient de détermination

La valeur PPP bayésienne et le coefficient de détermination sont des métriques complémentaires. Le coefficient de détermination est une métrique relative, principalement utilisée pour comparer un modèle à un autre (par exemple, "le coefficient de détermination du modèle A est meilleur que celui du modèle B"). En revanche, la valeur PPP bayésienne est une mesure absolue de l'adéquation du modèle.

De plus, le coefficient de détermination mesure généralement la variance expliquée par l'estimation ponctuelle du modèle. En revanche, la valeur PPP bayésienne tient compte de l'incertitude dans les estimations et détermine si les données observées ont été déduites du modèle de façon plausible.

Un état FAIL de la valeur PPP bayésienne indique que le modèle est fondamentalement mal spécifié. À l'inverse, le coefficient de détermination peut être faible même si le modèle est parfaitement spécifié, car le processus réel est intrinsèquement bruyant.

Variation entre les distributions a priori et a posteriori du ROI

L'apprentissage à partir des données constitue un concept fondamental de la modélisation bayésienne. Cette vérification vous aide à comprendre la quantité de connaissances que le modèle acquiert en comparant la distribution a priori à la distribution a posteriori. Il existe deux interprétations principales de cette vérification :

  • Si vous constatez une variation importante, c'est généralement bon signe. Cela signifie que les données utilisées pour ajuster le MMM sont suffisamment informatives pour mettre à jour les convictions initiales du modèle, ce qui permet d'obtenir une estimation plus précise et basée sur les données.

  • Si la variation est faible ou nulle, cela signifie que les informations contenues dans les données utilisées pour ajuster le MMM sont faibles par rapport aux informations incluses dans l'a priori. Cette situation peut se produire pour deux raisons principales :

    • Informations de mauvaise qualité dans les données : les données concernant ce canal sont trop éparses, trop bruyantes ou manquent de variation. Lorsque les données contiennent peu d'informations, l'a priori et l'a posteriori sont similaires. Les canaux dont les dépenses sont faibles sont particulièrement susceptibles d'être concernés. Pour résoudre ce problème, la bonne pratique consiste souvent à fusionner le canal avec un autre canal associé afin d'augmenter son signal. S'il n'existe aucun canal raisonnable avec lequel le canal peut être fusionné, il est toujours préférable d'inclure le canal dans le modèle et de s'appuyer sur les connaissances de votre a priori (en supposant qu'elles soient au moins approximativement raisonnables) plutôt que de supprimer complètement le canal. Il est préférable d'utiliser un a priori raisonnable plutôt que de faire comme si le canal n'existait pas. La suppression d'un canal ne doit être envisagée qu'en dernier recours, par exemple si ses dépenses sont vraiment minimes et qu'il ne peut pas être combiné logiquement ailleurs. Pour en savoir plus, consultez Lorsque l'a posteriori est identique à l'a priori.

    • Informations de bonne qualité dans l'a priori : l'a priori est intentionnellement défini comme très solide (faible variance). Ce n'est pas forcément une mauvaise chose. Si l'a priori était basé sur des connaissances externes solides (par exemple, à partir d'une expérience causale précédente non utilisée pour ajuster ce modèle), il est acceptable et attendu que l'a priori contienne plus d'informations que les données du modèle et qu'il n'y ait pas de variation.

Vous pouvez inspecter visuellement cette variation. Exécutez la commande suivante pour tracer la distribution a posteriori du ROI par rapport à la distribution a priori du ROI pour chaque canal média :

model_diagnostics = visualizer.ModelDiagnostics(meridian)
model_diagnostics.plot_prior_and_posterior_distribution()

D'un point de vue quantitatif, Meridian effectue des tests d'hypothèse bilatéraux sur les statistiques clés (moyenne, médiane, premier et troisième quartiles) du paramètre de ROI pour chaque canal média payant. Le test vérifie si la statistique analytique de l'a priori (par exemple, la moyenne a priori) se situe en dehors d'un intervalle de confiance élaboré à partir des échantillons a posteriori. Cette opération est effectuée à l'aide d'un bootstrap non paramétrique :

  1. Une distribution empirique pour une statistique (par exemple, la moyenne) est générée à partir des échantillons a posteriori par rééchantillonnage répété.

  2. Un test d'hypothèse bilatéral est effectué, où l'hypothèse nulle est que la statistique a posteriori est égale à la statistique a priori.

  3. Ce test calcule les valeurs-p en recherchant la proportion de statistiques a posteriori bootstrapées qui sont supérieures ou inférieures à la valeur de l'a priori.

  4. Si la valeur-p est inférieure au seuil de signification ($\alpha=0.05$), l'hypothèse nulle est rejetée et une variation importante est signalée pour cette statistique spécifique.

Un canal est signalé comme n'ayant "aucune variation entre les distributions a priori et a posteriori" dans le tableau des recommandations si aucune de ses statistiques clés ne présente de variation importante.

Condition État Recommandation
Pour tous les canaux : variation importante entre a priori et a posteriori PASS Le modèle a acquis des connaissances à partir de vos données, ce qui indique que celles-ci étaient informatives.
Pour certains canaux : pas de variation importante entre a priori et a posteriori REVIEW Nous avons détecté que, dans les canaux X, Y et Z, il n'y a pas eu de changement significatif entre les distributions a posteriori et a priori. Cela indique que le signal de données pour ces canaux n'était pas assez fort pour mettre à jour les convictions du modèle. Veuillez examiner ces canaux pour déterminer si ce résultat est attendu (en raison d'a priori forts) ou problématique (en raison d'un signal faible).

Cohérence du ROI

Le ROI est souvent le résultat le plus surveillé d'un MMM. Cette vérification permet de s'assurer que les estimations du ROI du modèle sont plausibles. Des valeurs de ROI extrêmes peuvent indiquer des problèmes sous-jacents (liés à l'estimation de référence ou à la spécification du modèle).

Meridian effectue cette vérification en évaluant le ROI moyen a posteriori de chaque canal média payant par rapport à la distribution a priori personnalisée correspondante. Le ROI d'un canal est signalé comme valeur aberrante si sa moyenne a posteriori se situe dans les queues extrêmes de la distribution a priori. Plus précisément, cet état REVIEW est déclenché si l'estimation se situe au-dessus du 99e centile ou en dessous du 1er centile de votre croyance antérieure déclarée.

Condition État Recommandation
Pour tous les canaux, le ROI moyen a posteriori se situe entre le 1er et le 99e centiles de sa distribution a priori. PASS La distribution a posteriori du ROI se situe dans une plage raisonnable, conformément aux a priori personnalisés que vous avez fournis.
Pour certains canaux, le ROI moyen a posteriori se situe dans les queues extrêmes (c'est-à-dire au-dessus du 99e centile ou en dessous du 1er centile) de sa distribution a priori. REVIEW Nous avons détecté que, dans les canaux X, Y et Z, la moyenne a posteriori se situe dans la queue extrême de votre a priori personnalisé. Veuillez examiner ce résultat pour déterminer s'il est raisonnable dans votre contexte métier.

Cette vérification n'est effectuée que lorsque des a priori personnalisés sont définis. Elle est ignorée si les a priori par défaut sont utilisés. L'objectif est de vérifier s'il existe un conflit entre le résultat basé sur les données du modèle (l'a posteriori) et votre hypothèse métier explicite basée sur l'expertise (l'a priori personnalisé). Il s'agit d'une alerte exploitable lorsque les données contredisent fortement vos convictions déclarées, ce qui vous invite à examiner le modèle ou les hypothèses. En revanche, les a priori par défaut ne sont pas des hypothèses métier. Il s'agit d'outils statistiques à usage général pour la régularisation. Comme ces hypothèses sont volontairement larges et ne représentent pas vos connaissances métier spécifiques, les comparer au résultat du modèle ne permettrait pas d'obtenir des insights pratiques ou utiles.