Verificações de qualidade pós-modelagem

Ir para:

Executar verificações de qualidade

Depois que o modelo for treinado, avalie a integridade e a estabilidade dele antes de confiar nos resultados para inferência causal. Essas verificações de qualidade pós-modelagem são projetadas para diagnosticar problemas comuns relacionados à convergência, especificação e plausibilidade do modelo.

Executar essas verificações ajuda a identificar possíveis problemas, a entender como seus dados informaram o modelo e a ter certeza de que as saídas do modelo são confiáveis e fazem sentido para os negócios.

Execute o comando a seguir para gerar os resultados de todos os diagnósticos necessários nesta página:

from meridian.analysis.review import reviewer

reviewer.ModelReviewer(mmm).run()

Interpretar os status de diagnóstico

Cada verificação de diagnóstico nessa página vai retornar um dos três status. Confira os princípios por trás de cada um:

  • APROVADO: esse status é meramente informativo, e nenhuma ação é necessária por parte do usuário.

  • REVISÃO: esse status aparece quando uma descoberta depende do contexto comercial e não é um Pass ou Fail claro. Revise manualmente o resultado para determinar se é necessário fazer mais alguma coisa. Continuar com um status REVIEW geralmente é o razoável, desde que você tenha avaliado a descoberta e entenda as implicações dela.

  • FALHA: um sinal crítico que indica que a verificação detectou um problema significativo. É altamente recomendável corrigir o problema antes de continuar, porque os resultados do modelo podem não ser confiáveis para inferência causal.

Convergência

A convergência do modelo é um pré-requisito fundamental para interpretar as estimativas de qualquer modelo bayesiano, como o Meridian. Sem convergência, as estimativas são arbitrárias e não representam a distribuição a posteriori.

O Meridian usa o fator de redução de escala potencial (R-hat) de Gelman & Rubin (1992) para diagnosticar a convergência. O R-hat compara a variância entre as cadeias e em cada uma delas. Se as cadeias tiverem convergido, essas variâncias serão quase idênticas, e o valor de R-hat será próximo de 1,0.

Para fornecer um único indicador claro para todo o modelo, o Meridian informa o valor de max_r_hat encontrado em todos os parâmetros do modelo. Esse valor único determina o status geral de convergência do modelo.

Condição Status Recomendação
max_r_hat < 1.2 APROVADO O modelo provavelmente convergiu, já que todos os parâmetros têm valores de R-hat < 1,2.
max_r_hat >= 1.2 e < 10 REPROVADO O modelo não convergiu totalmente, e o max_r_hat para o parâmetro X é Y. Inspecione manualmente os parâmetros com valores altos de R-hat para determinar se os resultados são aceitáveis para seu caso de uso e considere aumentar as iterações de MCMC ou investigar erros de especificação do modelo.
max_r_hat >= 10 REPROVADO O modelo não convergiu, e o max_r_hat para o parâmetro X é Y. Recomendamos aumentar as iterações de MCMC ou investigar a especificação incorreta do modelo (por exemplo, distribuições a priori, multicolinearidade) antes de continuar.

Se o max_r_hat do seu modelo for 1,2 ou mais, investigue a causa antes de confiar nas saídas do modelo. Siga estas etapas para resolver problemas de convergência:

  • Aumente as iterações de MCMC: primeiro, tente aumentar o número de iterações de MCMC, já que o modelo pode precisar de mais tempo para explorar a distribuição a posteriori e alcançar um estado estável.

  • Investigue o modelo: se o problema de convergência persistir depois de aumentar as iterações, investigue uma possível especificação incorreta do modelo. Isso inclui reexaminar cuidadosamente as distribuições a priori e verificar alta multicolinearidade entre os preditores.

Para mais informações, consulte Conseguir a convergência de MCMC.

Valor de referência negativo

No Meridian, o valor de referência representa o resultado esperado (por exemplo, vendas, conversões) no cenário contrafactual em que todas as variáveis de tratamento são definidas como os respectivos valores de referência. Basicamente, ela ajuda a entender o que teria acontecido com o resultado se você não tivesse interagido com mídia paga, orgânica ou outros tratamentos não relacionados à mídia durante o período de análise.

Estimar o valor de referência com precisão é fundamental porque fornece a base para determinar o impacto incremental dos seus esforços de marketing. Um valor de referência errado pode levar a interpretações equivocadas significativas do verdadeiro impacto do seu marketing.

Como o resultado geralmente não pode ser negativo, um valor de referência que cai para valores negativos indica um erro estatístico. No entanto, é importante ser preciso sobre a gravidade. Como todos os modelos estatísticos, o Meridian vai apresentar algum erro. Portanto, uma pequena queda ocasional nos valores negativos pode não ser um problema grave. No entanto, um valor de referência consistentemente negativo é um problema claro. Isso sugere que, sem marketing, suas vendas teriam sido consistentemente negativas, o que não faz sentido em um cenário real. Esse é um forte sinal de que o modelo está superestimando os efeitos do tratamento, provavelmente atribuindo incorretamente o crescimento orgânico ou outros efeitos positivos não medidos às variáveis de tratamento.

Como o Meridian é um modelo estatístico e probabilístico, podemos distinguir esses cenários avaliando o valor de referência de forma probabilística, em vez de analisar apenas uma estimativa pontual. A principal métrica a ser avaliada é a probabilidade a posteriori de que o valor de referência, agregado em toda a janela de tempo, seja negativo. Uma alta probabilidade desse tipo indica um grande erro estatístico e que o modelo precisa de ajuste. Para uma explicação mais detalhada, consulte Avaliar o valor de referência negativo.

O Meridian avalia essa probabilidade para ajudar você a diagnosticar seu modelo:

Condição Status Recomendação
Probabilidade do valor de referência negativo < 0.2 APROVADO A probabilidade a posteriori de que o valor de referência seja negativo é X. Recomendamos inspecionar visualmente a série temporal de valores de referência nos gráficos de ajuste do modelo para confirmar isso.
A probabilidade negativa do valor de referência está entre 0.2 e 0.8 REVISAR A probabilidade a posteriori de que o valor de referência seja negativo é X. Isso indica que a série temporal de valores de referência às vezes cai para valores negativos. Recomendamos inspecionar visualmente a série temporal de valores de referência nos gráficos de ajuste do modelo, mas não se preocupe demais. Uma queda ocasional e pequena pode indicar um erro estatístico menor, que é inerente a qualquer modelo.
Probabilidade do valor de referência negativo > 0.8 REPROVADO A probabilidade a posteriori de que o valor de referência seja negativo é X. Essa alta probabilidade aponta para um erro estatístico e é um sinal claro de que o modelo precisa de ajuste. O modelo provavelmente está atribuindo crédito demais aos seus tratamentos. Considere ajustar as configurações, os dados ou as distribuições a priori do modelo para corrigir esse problema.

Se a probabilidade de referência negativa for alta (ou seja, > 0,8) para seu modelo, recomendamos revisar a especificação, as variáveis de controle e o DAG dele. Para mais informações, consulte Mitigar valores de referência negativos ou baixos.

Valor p preditivo a posteriori (PPP) bayesiano

O valor p preditivo a posteriori (PPP, na sigla em inglês) bayesiano é uma ferramenta de diagnóstico eficiente que verifica o ajuste geral do modelo. Às vezes, também é chamado de valor de p bayesiano. Ela responde à pergunta: "Os dados simulados pelo meu modelo são parecidos com os dados reais que observei?" Se o modelo tiver aprendido corretamente os padrões subjacentes dos dados, os dados simulados serão estatisticamente equivalentes dos dados reais. Se os dados simulados forem completamente diferentes, isso é um sinal forte de que o modelo está mal especificado e não se ajusta bem aos dados. Para mais informações, consulte a seção 6.3 da Análise de dados bayesiana.

Para fazer essa verificação, o Meridian usa a soma total do resultado (em todas as regiões geográficas e períodos) como estatística de teste. A verificação compara a distribuição do resultado total esperado ($T(y_{\text{exp}})$) das amostras de distribuição a posteriori com o resultado total único observado ($T(y)$). Uma maneira simples de fazer essa comparação é calcular o valor p unilateral ou a classificação percentual da soma total observada ($T(y)$) na distribuição das somas totais esperadas, que é calculada como:

$$ \frac{1}{S} \sum_{s=1}^{S} \mathbb{I}(T(y_{\text{exp}}^{(s)}) \geq T(y)), $$

Em que $S$ é o número total de amostras da distribuição a posteriori. Com esse cálculo, um ajuste de modelo "extremo" ou "ruim" ocorrerá se os dados observados estiverem na cauda extrema esquerda (um valor p próximo de 0) ou na cauda extrema direita (um valor p próximo de 1) da distribuição preditiva a posteriori do resultado esperado. Para fins de geração de relatórios, o valor p é transformado para que valores próximos de 0 representem ambas as extremidades (para corresponder à interpretação de um valor p frequentista). A hipótese nula conceitual é que os dados observados foram gerados pelo modelo. A hipótese nula é "rejeitada", por assim dizer, se o valor p for menor que um limite predeterminado.

Condição Status Recomendação
PPP bayesiano >= 0.05 APROVADO O valor p preditivo a posteriori bayesiano é X. O resultado total observado é consistente com a distribuição preditiva a posteriori do modelo.
PPP bayesiano < 0.05 REPROVADO O valor p preditivo a posteriori bayesiano é X. O resultado total observado é um outlier extremo em comparação com os resultados totais esperados do modelo, o que sugere uma falta de ajuste sistemática. Recomendamos revisar a qualidade dos dados de entrada e reexaminar a especificação do modelo (por exemplo, distribuições a priori, transformações) para resolver esse problema.

Um status FAIL para o valor PPP é um forte indicador de especificação incorreta do modelo. Por exemplo, variáveis ausentes, problemas de dados não detectados pela análise exploratória, distribuições a priori incorretas ou pressupostos falhos sobre decaimento de Adstock, saturação ou valor de referência. Recomendamos que você analise cuidadosamente a qualidade dos dados de entrada para identificar anomalias, outliers ou erros nas variáveis de KPI, mídia e controle. Além disso, reexamine a especificação do modelo, prestando atenção à escolha das distribuições a priori, ao valor de referência e à adequação das transformações de Adstock e Hill. Por fim, compare o resultado do PPP bayesiano com outros diagnósticos críticos do modelo, como convergência, R ao quadrado e gráficos de resíduos, para ter uma visão geral da performance do modelo.

Qualidade do ajuste

As métricas de qualidade do ajuste medem o alinhamento das previsões de um modelo com os dados reais observados. Elas servem como uma importante verificação de confiança, mas precisam ser interpretadas com cuidado, já que o objetivo principal de uma MMM é a inferência causal precisa, não a acurácia preditiva. O Meridian informa três métricas padrão:

  • R ao quadrado: a proporção de variância na variável do resultado que é explicada pelo modelo. Um valor mais próximo de 1 indica um ajuste melhor.

  • Erro absoluto médio percentual (MAPE, na sigla em inglês): a diferença percentual absoluta média entre os valores previstos e reais. Um valor mais próximo de 0% é melhor.

  • MAPE ponderado (wMAPE): uma variação do MAPE em que os erros são ponderados pelo valor real do resultado (por exemplo, receita). Essa métrica é preferível ao MAPE porque dá menos importância a regiões geográficas e períodos com resultados pequenos, que podem aumentar a métrica de erro.

Essas métricas são informadas para todos os modelos, servindo principalmente como uma ferramenta de comparação relativa com outros modelos candidatos.

Condição Status Recomendação
R ao quadrado > 0 APROVADO R ao quadrado = X, MAPE = Y e wMAPE = Z. Essas métricas de qualidade do ajuste são destinadas a orientação e comparação relativa.
R ao quadrado <= 0 REVISAR R ao quadrado = X, MAPE = Y e wMAPE = Z. Um R ao quadrado negativo indica um possível conflito entre as distribuições a priori e os dados, e exige investigação. Se esse conflito for intencional (devido a uma distribuição informativa), nenhuma outra ação será necessária. Se for não intencional, recomendamos deixar as distribuições a priori menos restritivas.

Essas métricas de ajuste normalmente têm um status PASS, já que são destinadas a orientação e comparação relativa. No entanto, se o R ao quadrado gerar um valor negativo, o Meridian vai informar um status REVIEW. Um R ao quadrado negativo geralmente decorre de distribuições a priori excessivamente informativas que entram em conflito com os padrões nos seus dados. Esse conflito é um sinal de diagnóstico importante, mas não é "ruim" de maneira inerente. É necessário considerar seus objetivos de modelagem, já que o conflito pode ser intencional. Por exemplo, você pode usar uma distribuição a priori forte e baseada em experimentos para neutralizar deliberadamente uma variável (como um confundidor ausente) que você acredita existir nos dados de observação. Nesse cenário, o R ao quadrado negativo apenas destaca a tensão que você acrescentou.

Portanto, um status REVIEW pede que você investigue o motivo desse conflito. Se o conflito não for intencional (e não uma escolha deliberada, como no exemplo acima), recomendamos que você revise e flexibilize as distribuições a priori para serem menos restritivas. Se o problema persistir, investigue a estrutura do modelo em busca de outros problemas, como variáveis principais ausentes ou pressupostos incorretos sobre as relações entre os preditores e o resultado. Para mais informações, consulte R ao quadrado negativo.

PPP bayesiano comparado ao R ao quadrado

O PPP bayesiano e o R ao quadrado são métricas complementares. O R ao quadrado é uma métrica relativa, usada principalmente para comparar um modelo com outro (por exemplo, O R ao quadrado do modelo A é melhor do que o do modelo B. Em contraste, o PPP bayesiano é uma medida absoluta de adequação do modelo.

Além disso, o R ao quadrado geralmente mede a variância explicada pela estimativa pontual do modelo. Já o PPP bayesiano considera a incerteza nas estimativas e determina se os dados observados são uma extração plausível do modelo.

Um status FAIL do PPP bayesiano indica que o modelo está fundamentalmente especificado de maneira errada. Por outro lado, o R ao quadrado pode ser baixo mesmo que o modelo seja perfeitamente especificado, porque o processo verdadeiro é ruidoso de maneira inerente.

Mudança de distribuição do ROI a priori para a posteriori

Um conceito fundamental na modelagem bayesiana é "aprender com os dados". Essa verificação ajuda a entender o quanto o modelo aprende comparando as distribuições a priori e a posteriori. Há duas interpretações principais dessa verificação:

  • Uma mudança significativa geralmente é um bom sinal. Isso indica que os dados usados para ajustar a MMM são informativos o suficiente para atualizar as convicções iniciais do modelo, resultando em uma estimativa mais precisa e baseada em dados.

  • Quando há pouca ou nenhuma mudança: isso significa que as informações nos dados usados para ajustar a MMM são fracas em relação às informações na distribuição a priori. Isso pode acontecer por dois motivos principais:

    • Poucas informações nos dados: os dados desse canal são muito esparsos, ruidosos ou sem variação. Quando há poucas informações nos dados, as duas distribuições são parecidas. Canais com poucos gastos são mais suscetíveis a isso. Para resolver isso, a prática recomendada geralmente é mesclar o canal com outro relacionado para aumentar o sinal dele. Se não houver um canal razoável para mesclar, ainda é melhor incluir o canal no modelo e confiar no seu conhecimento prévio (pressupondo que seja ao menos razoavelmente adequado) do que descartar o canal completamente. Usar uma distribuição a priori razoável é melhor do que fingir que o canal não existe. A remoção do canal só deve ser considerada como último recurso, por exemplo, se o gasto for realmente insignificante e não puder ser combinado de maneira lógica em outro lugar. Para mais informações, consulte Quando as distribuições a priori e a posteriori são iguais.

    • Informações consistentes na distribuição a priori: a distribuição a priori é definida intencionalmente para ser muito forte (baixa variância). Isso não é necessariamente algo ruim. Se a distribuição a priori for baseada em conhecimento externo sólido (por exemplo, de um experimento causal anterior não usado para ajustar esse modelo), será aceitável e esperado que ela tenha mais informações do que os dados do modelo, e a falta de mudança não será um problema.

Você pode inspecionar essa mudança visualmente. Execute o comando a seguir para representar a distribuição de ROI a posteriori e a priori para cada canal de mídia:

model_diagnostics = visualizer.ModelDiagnostics(meridian)
model_diagnostics.plot_prior_and_posterior_distribution()

Em termos quantitativos, o Meridian realiza testes de hipótese bilaterais para estatísticas importantes (média, mediana, primeiro e terceiro quartis) do parâmetro de ROI de cada canal de mídia paga. O teste verifica se a estatística analítica da distribuição a priori (por exemplo, média a priori) está fora de um intervalo de confiança construído com base nas amostras a posteriori. Isso é feito usando um bootstrap não paramétrico:

  1. Uma distribuição empírica para uma estatística (por exemplo, a média) é gerada das amostras a posteriori por reamostragem repetida.

  2. Um teste de hipótese bilateral é realizado em que a hipótese nula é que a estatística a posteriori é igual à estatística a priori.

  3. O teste calcula os valores p encontrando a proporção das estatísticas a posteriori de bootstrap que são maiores ou menores que o valor da distribuição a priori.

  4. Se o valor p estiver abaixo do nível de significância ($\alpha=0.05$), a hipótese nula será rejeitada, e uma mudança significativa será informada para essa estatística específica.

Um canal será sinalizado como "sem mudança significativa de distribuição a priori/a posteriori" na tabela de recomendações se nenhuma das principais estatísticas mostrar uma mudança significativa.

Condição Status Recomendação
Para todos os canais, há uma mudança significativa na distribuição a priori/a posteriori. APROVADO O modelo aprendeu com os dados. Isso é um sinal positivo de que seus dados foram informativos.
Para qualquer canal, não há uma mudança significativa na distribuição a priori/a posteriori. REVISAR Detectamos os canais X, Y e Z, em que a distribuição a posteriori não mudou significativamente em relação à distribuição a priori. Isso sugere que o indicador de dados desses canais não foi forte o suficiente para atualizar as convicções do modelo. Analise esses canais para determinar se isso é esperado (devido a distribuições a priori fortes) ou problemático (devido a um sinal fraco).

Consistência do ROI

O ROI costuma ser o resultado mais analisado de uma MMM. Essa verificação ajuda a garantir que as estimativas de ROI do modelo sejam plausíveis. Valores extremos de ROI podem indicar problemas subjacentes, como problemas com a estimativa de valor de referência ou a especificação do modelo.

O Meridian faz essa verificação avaliando o ROI médio a posteriori de cada canal de mídia paga em relação à distribuição a priori personalizada correspondente. O ROI de um canal é sinalizado como um outlier se a média a posteriori estiver nas extremidades da distribuição a priori. Especificamente, o status REVIEW será acionado se a estimativa ficar acima do 99º percentil ou abaixo do 1º percentil da sua crença a priori declarada.

Condição Status Recomendação
Para todos os canais, o ROI médio a posteriori está entre os percentis 1 e 99 da distribuição a priori. APROVADO A distribuição a posteriori do ROI está dentro de um intervalo razoável, alinhada às distribuições a priori personalizadas fornecidas.
Para qualquer canal, o ROI médio a posteriori fica nas extremidades (acima do percentil 99 ou abaixo do 1) da distribuição a priori. REVISAR Detectamos os canais X, Y e Z, em que a média a posteriori está na extremidade da sua distribuição a priori personalizada. Analise esse resultado para determinar se ele é razoável no contexto da sua empresa.

Essa verificação só é realizada quando distribuições a priori personalizadas são definidas e se ´é ignorada se distribuições a priori padrão forem usadas. O objetivo da verificação é detectar um conflito entre o resultado orientado por dados do modelo (a distribuição a posteriori) e sua hipótese de negócios explícita e orientada por especialistas (a distribuição a priori personalizada). Ele funciona como um alerta útil quando os dados contradizem fortemente suas crenças declaradas, solicitando uma revisão do modelo ou das proposições. Em contraste, as distribuições a priori padrão não são hipóteses de negócios, mas ferramentas estatísticas de uso geral para regularização. Como elas são intencionalmente amplas e não representam seu conhecimento específico sobre negócios, comparar o resultado do modelo com elas não fornece um insight significativo ou útil.