Accede a las diferentes secciones de este artículo:
- Ejecuta verificaciones de calidad
- Cómo interpretar los distintos estados de diagnóstico
- Convergencia
- Valor de referencia negativo
- Valor P predictivo a posteriori (PPP) bayesiano
- Bondad del ajuste
- Cambio entre las distribuciones a priori y a posteriori del ROI
- Coherencia del ROI
Ejecuta verificaciones de calidad
Después de entrenar el modelo, debes evaluar su integridad y estabilidad antes de confiar en sus resultados para la inferencia causal. Estas verificaciones de calidad posteriores al modelado están diseñadas para diagnosticar problemas habituales relacionados con la convergencia, la especificación y la verosimilitud del modelo.
Realizar estas verificaciones te permite identificar posibles problemas, comprender cómo tus datos influyeron en el modelo y tener la certeza de que los datos de salida del modelo son confiables y tienen sentido para tu negocio.
Ejecuta el siguiente comando para generar los resultados de todos los diagnósticos necesarios mencionados en esta página:
from meridian.analysis.review import reviewer
reviewer.ModelReviewer(mmm).run()
Cómo interpretar los distintos estados de diagnóstico
Cada verificación de diagnóstico en esta página devolverá uno de tres estados. A continuación, se explica qué significa cada uno:
PASS: Este estado es meramente informativo y no requiere ninguna acción del usuario.
REVIEW: Este estado aparece cuando un hallazgo depende del contexto empresarial y no es claramente
PassniFail. Revisa el resultado de forma manual para determinar si se requiere alguna acción adicional. Proceder con un estadoREVIEWsuele ser razonable, siempre que hayas evaluado el hallazgo y comprendido sus implicaciones.FAIL: Este es un indicador crítico que señala que la verificación detectó un problema significativo. Te recomendamos corregir el problema antes de proceder, ya que los resultados del modelo pueden no ser confiables para la inferencia causal.
Convergencia
La convergencia del modelo es un requisito previo fundamental para interpretar las estimaciones de cualquier modelo bayesiano, como Meridian. Sin convergencia, las estimaciones son arbitrarias y no una representación precisa de la distribución a posteriori.
Meridian utiliza el factor de reducción de escala potencial (R-hat) de Gelman y Rubin (1992) para diagnosticar la convergencia. El R-hat compara la varianza entre cadenas con la varianza dentro de cada cadena. Si las cadenas convergieron, estas varianzas serán casi idénticas y el valor de R-hat estará cerca de 1.0.
Para ofrecer un indicador único y claro para todo el modelo, Meridian utiliza el valor más alto de R-hat (max_r_hat) encontrado entre todos los parámetros del modelo. Este valor único determina el estado general de convergencia del modelo.
| Condición | Estado | Recomendación |
|---|---|---|
max_r_hat < 1.2 |
PASS | Es probable que el modelo haya convergido, ya que todos los parámetros tienen valores de R-hat inferiores a 1.2. |
max_r_hat >= 1.2 y < 10 |
FAIL | El modelo no convergió por completo, y el max_r_hat del parámetro X es Y. Inspecciona manualmente los parámetros con valores altos de R-hat para determinar si los resultados son aceptables para tu caso de uso y considera aumentar las iteraciones de MCMC o investigar si hay errores en la especificación del modelo. |
max_r_hat >= 10 |
FAIL | El modelo no convergió, y el max_r_hat del parámetro X es Y. Recomendamos aumentar las iteraciones de MCMC o investigar si hay errores en la especificación del modelo (p. ej., distribuciones a priori o multicolinealidad) antes de proceder. |
Si el max_r_hat de tu modelo es igual o superior a 1.2, debes investigar la causa antes de confiar en los datos de salida del modelo. Sigue estos pasos para resolver los problemas de convergencia:
Aumenta las iteraciones de MCMC: Primero, aumenta la cantidad de iteraciones de MCMC, ya que el modelo podría necesitar más tiempo para explorar la distribución a posteriori y alcanzar un estado estable.
Investiga el modelo: Si el problema de convergencia persiste tras aumentar las iteraciones, investiga los posibles errores en la especificación del modelo. Esto incluye volver a examinar cuidadosamente tus distribuciones a priori y verificar si hay una alta multicolinealidad entre tus variables predictoras.
Para obtener más información, consulta Cómo lograr la convergencia de MCMC.
Valor de referencia negativo
En Meridian, el valor de referencia representa el resultado esperado (p. ej., ventas o conversiones) en la situación contrafáctica en la que todas las variables de tratamiento se establecen en sus valores de referencia. En esencia, nos permite comprender qué habría sucedido con el resultado si no se hubieran utilizado medios pagados, medios orgánicos ni otras variables de tratamiento que no son de medios durante el período de análisis.
Estimar el valor de referencia con precisión es fundamental, ya que proporciona la base para determinar el impacto incremental de tus iniciativas de marketing. Un valor de referencia inexacto puede generar interpretaciones significativamente erróneas sobre el verdadero impacto de tus iniciativas de marketing.
Dado que el resultado generalmente no puede ser negativo, un valor de referencia negativo indica un error estadístico. Sin embargo, es importante evaluar con precisión la magnitud del problema. Al igual que todos los modelos estadísticos, Meridian presenta cierto margen de error, por lo que, si rara vez produce valores negativos, esto podría no ser un problema grave. Sin embargo, si el valor de referencia resulta constantemente negativo, esto es un problema evidente. Esto sugeriría que, sin ninguna iniciativa de marketing, tus ventas habrían sido constantemente negativas, lo cual no tiene sentido en una situación del mundo real. Esto es un indicador claro de que el modelo está sobreestimando los efectos de la variable de tratamiento, quizá porque atribuye de forma incorrecta el crecimiento orgánico o demás efectos positivos no medidos a tus variables de tratamiento.
Dado que Meridian es un modelo estadístico y probabilístico, podemos distinguir entre estas situaciones evaluando el valor de referencia de forma probabilística, en lugar de observar una sola estimación puntual. La métrica clave para esta evaluación es la probabilidad a posteriori de que el valor de referencia, agregado durante todo el período, sea negativo. Una probabilidad alta de este tipo indica que hay un error estadístico significativo y que el modelo requiere un ajuste. Para obtener una explicación más detallada, consulta la sección sobre evaluación de valores de referencia negativos.
Meridian evalúa esta probabilidad para ayudarte a diagnosticar tu modelo:
| Condición | Estado | Recomendación |
|---|---|---|
Probabilidad de valor de referencia negativo < 0.2 |
PASS | La probabilidad a posteriori de que el valor de referencia sea negativo es X. Para confirmarlo, recomendamos inspeccionar visualmente la serie temporal del valor de referencia en los gráficos de ajuste del modelo. |
Probabilidad de valor de referencia negativo entre 0.2 y 0.8 |
REVIEW | La probabilidad a posteriori de que el valor de referencia sea negativo es X. Esto indica que la serie temporal del valor de referencia a veces desciende a valores negativos. Recomendamos inspeccionar visualmente la serie temporal del valor de referencia en los gráficos de ajuste del modelo, pero no te preocupes demasiado. Una pequeña disminución ocasional puede indicar un error estadístico leve, que es inherente a cualquier modelo. |
Probabilidad de valor de referencia negativo > 0.8 |
FAIL | La probabilidad a posteriori de que el valor de referencia sea negativo es X. Esta alta probabilidad apunta a un error estadístico y es un claro indicador de que el modelo requiere ajustes. Es probable que el modelo esté asignando un crédito excesivo a tus variables de tratamiento. Considera ajustar la configuración, los datos o las distribuciones a priori del modelo para corregir este problema. |
Si la probabilidad de valor de referencia negativo es alta (es decir, superior a 0.8) para tu modelo, recomendamos revisar su especificación, las variables de control y el DAG. Para obtener más información, consulta cómo mitigar un valor de referencia negativo o bajo.
Valor P predictivo a posteriori (PPP) bayesiano
El valor P predictivo a posteriori (PPP) bayesiano es una poderosa herramienta de diagnóstico que verifica el ajuste general de tu modelo. También suele denominarse "valor P bayesiano". Sirve para responder la siguiente pregunta: "¿Los datos simulados por mi modelo se parecen a los datos reales que observé?". Si el modelo aprendió de forma correcta los patrones subyacentes de los datos, los datos que simula deberían ser estadísticamente indistinguibles de los datos reales. En cambio, si los datos simulados difieren de manera significativa, esto es un indicador claro de que el modelo presenta errores de especificación y no se ajusta bien a los datos. Para obtener más información, consulta la sección 6.3 de Bayesian Data Analysis.
Para realizar esta verificación, Meridian utiliza la suma total del resultado (en todas las ubicaciones geográficas y períodos) como estadística de prueba. La verificación compara la distribución del resultado total esperado ($T(y_{\text{exp}})$) de sus muestras a posteriori con el único resultado total observado ($T(y)$). Una forma sencilla de realizar esta comparación es calcular el valor p unilateral, o rango percentil, de la suma total observada ($T(y)$) dentro de la distribución de las sumas totales esperadas, que se calcula de la siguiente manera:
Aquí, $S$ es la cantidad total de muestras a posteriori. Con este cálculo, se considera que el ajuste del modelo es "extremo" o "deficiente" si los datos observados se encuentran en el extremo izquierdo (un valor p cercano a 0) o derecho (un valor p cercano a 1) de la distribución predictiva a posteriori del resultado esperado. Para fines de generación de informes, el valor p se transforma de modo que los valores cercanos a 0 representen ambos extremos (para que coincidan con la interpretación de un valor p frecuentista). La hipótesis nula conceptual es que el modelo generó los datos observados. La hipótesis nula se "rechaza", por así decirlo, si el valor p es inferior a un umbral predeterminado.
| Condición | Estado | Recomendación |
|---|---|---|
PPP bayesiano >= 0.05 |
PASS | El valor P predictivo a posteriori bayesiano es X. El resultado total observado coincide con la distribución predictiva a posteriori del modelo. |
PPP bayesiano < 0.05 |
FAIL | El valor P predictivo a posteriori bayesiano es X. El resultado total observado es un valor extremadamente atípico en comparación con los resultados totales esperados del modelo, lo que sugiere una falta de ajuste sistemática. Recomendamos revisar la calidad de los datos de entrada y volver a examinar la especificación del modelo (p. ej., distribuciones a priori y transformaciones) para resolver este problema. |
Un estado FAIL para el valor del PPP es un claro indicador de un error en la especificación del modelo (p. ej., variables faltantes, problemas con los datos no detectados en el EDA, distribuciones a priori incorrectas o suposiciones erróneas sobre el decaimiento, la saturación o el valor de referencia de Adstock). Te recomendamos revisar detenidamente la calidad de los datos de entrada para detectar anomalías, valores atípicos o errores en las variables de control, medios y KPI.
Además, vuelve a examinar la especificación del modelo, prestando especial atención a la elección de las distribuciones a priori, los valores de referencia y la adecuación de las transformaciones de Adstock y Hill. Por último, compara el resultado del PPP bayesiano mediante referencia cruzada con otros diagnósticos clave del modelo, como la convergencia, el valor de R cuadrado y los diagramas de residuos, para obtener una visión integral del rendimiento del modelo.
Bondad del ajuste
Las métricas de bondad del ajuste miden qué tan bien se alinean las predicciones de un modelo con los datos observados reales. Sirven como una importante verificación de confianza, pero deben interpretarse con cuidado, ya que el objetivo principal de un MMM es la inferencia causal precisa, no la exactitud predictiva. Meridian informa tres métricas estándares:
Valor de R cuadrado: Es la proporción de varianza en la variable de resultado que explica el modelo. Cuanto más cerca esté el valor de 1, mejor será el ajuste.
Error porcentual absoluto medio (MAPE): Es la diferencia porcentual absoluta promedio entre los valores predichos y los reales. Cuanto más cerca esté el valor del 0%, mejor.
MAPE ponderado (wMAPE): Es una variante del MAPE en la que los errores se ponderan según el valor del resultado real (p. ej., ingresos). Esta métrica suele preferirse al MAPE, ya que otorga menos importancia a las ubicaciones geográficas y los períodos con resultados insignificantes, que, de lo contrario, pueden aumentar la métrica de error.
Estas métricas se registran para todos los modelos, por lo que sirven principalmente como herramienta de comparación relativa entre modelos candidatos.
| Condición | Estado | Recomendación |
|---|---|---|
Valor de R cuadrado > 0 |
PASS | El valor de R cuadrado es X, MAPE es Y, y wMAPE es Z. Estas métricas de ajuste se proporcionan como guía y para comparaciones relativas. |
Valor de R cuadrado <= 0 |
REVIEW | El valor de R cuadrado es X, MAPE es Y, y wMAPE es Z. Un valor de R cuadrado negativo indica un posible conflicto entre las distribuciones a priori y los datos, lo que justifica una investigación. Si este conflicto es intencional (debido a una distribución a priori informativa), no es necesario realizar ninguna otra acción. De lo contrario, recomendamos flexibilizar las distribuciones a priori para que sean menos restrictivas. |
Por lo general, estas métricas de ajuste tendrán el estado PASS, ya que están diseñadas para brindar orientación y permitir comparaciones relativas. Sin embargo, si el valor de R cuadrado arroja un valor negativo, Meridian informará el estado REVIEW. Un valor de R cuadrado negativo suele deberse a distribuciones a priori demasiado informativas que entran en conflicto con los patrones de los datos.
Este conflicto es un indicador de diagnóstico importante, pero no es inherentemente "malo".
Debe considerarse en función de tus objetivos de modelado, ya que podría ser intencional. Por ejemplo, podrías utilizar una distribución a priori sólida basada en experimentos para contrarrestar deliberadamente un sesgo conocido (como una variable de confusión faltante) que crees que existe en los datos observacionales. En este caso, el valor de R cuadrado negativo simplemente destaca la tensión que tú introdujiste.
Por lo tanto, el estado REVIEW indica que debes investigar por qué se produce este conflicto. Si el conflicto es involuntario (y no una elección deliberada como en el ejemplo anterior), te recomendamos revisar y flexibilizar las distribuciones a priori para que sean menos restrictivas. Si el problema persiste, investiga la estructura del modelo para detectar otros problemas, como la falta de variables clave o suposiciones erróneas sobre las relaciones entre tus variables predictoras y el resultado. Para obtener más información, consulta Valor de R cuadrado negativo.
Comparación entre el PPP bayesiano y el valor de R cuadrado
El PPP bayesiano y el valor de R cuadrado son métricas complementarias. El valor de R cuadrado es una métrica relativa que se usa principalmente para comparar un modelo con otro (p. ej., el valor de R cuadrado del modelo A es mejor que el del modelo B). En cambio, el PPP bayesiano es una medida absoluta de la adecuación del modelo.
Además, el valor de R cuadrado suele medir la varianza explicada por la estimación puntual del modelo. Por el contrario, el PPP bayesiano considera la incertidumbre en las estimaciones y determina si los datos observados son una extracción verosímil del modelo.
Un estado FAIL del PPP bayesiano indica que el modelo está fundamentalmente mal especificado. Por el contrario, el valor de R cuadrado puede ser bajo incluso si el modelo está especificado a la perfección, ya que el proceso verdadero es inherentemente ruidoso.
Cambio entre las distribuciones a priori y a posteriori del ROI
Un concepto fundamental en el modelado bayesiano es el aprendizaje a partir de los datos. Esta verificación te permite comprender cuánto aprende el modelo comparando la distribución a priori con la distribución a posteriori. Existen dos interpretaciones principales de esta verificación:
Cuando hay un cambio significativo: Esto suele ser un buen indicador. Significa que los datos utilizados para ajustar el MMM son lo suficientemente informativos como para actualizar las creencias iniciales del modelo, lo que genera una estimación más precisa basada en los datos.
Cuando hay un cambio insignificante o nulo: Esto significa que la información de los datos utilizados para ajustar el MMM es débil en relación con la información de la distribución a priori. Esto puede ocurrir por dos motivos principales:
Poca información en los datos: Los datos de ese canal son demasiado dispersos, tienen demasiado ruido o carecen de variación. Cuando hay poca información en los datos, las distribuciones a priori y a posteriori son similares. Los canales con una inversión baja son especialmente propensos a esta situación. Para solucionar este problema, la práctica recomendada suele ser combinar el canal con otro canal relacionado para aumentar su señal. Si no hay un canal adecuado con el que se pueda combinar, sigue siendo preferible incluirlo en el modelo y confiar en tu conocimiento previo (suponiendo que sea, como mínimo, algo razonable) que descartarlo por completo. Usar una distribución a priori razonable es mejor que fingir que el canal no existe. La eliminación del canal solo debe considerarse como último recurso, por ejemplo, si su inversión es realmente insignificante y no se puede combinar de forma lógica en otro lugar. Para obtener más información, consulta Cuando la distribución a posteriori es igual a la distribución a priori.
Información sólida en la distribución a priori: La distribución a priori se establece de forma intencional para que sea muy sólida (varianza baja). Esto no es necesariamente algo negativo. Si la distribución a priori se basó en un conocimiento externo sólido (p. ej., de un experimento causal previo que no se usó para ajustar este modelo), es aceptable y se espera que tenga más información que los datos del modelo, y es totalmente válido que no haya un cambio.
Puedes inspeccionar visualmente este cambio. Ejecuta el siguiente comando para generar un gráfico comparativo de las distribuciones a priori y a posteriori del ROI para cada canal de medios:
model_diagnostics = visualizer.ModelDiagnostics(meridian)
model_diagnostics.plot_prior_and_posterior_distribution()
Cuantitativamente, Meridian realiza pruebas de hipótesis bilaterales para las estadísticas clave (media, mediana y primer y tercer cuartil) del parámetro del ROI para cada canal de medios pagado. La prueba verifica si la estadística analítica de la distribución a priori (p. ej., la media de la distribución a priori) se encuentra fuera del intervalo de confianza generado a partir de las muestras de la distribución a posteriori. Esto se hace con un bootstrap no paramétrico:
Se genera una distribución empírica para una estadística (p. ej., la media) a partir de las muestras de la distribución a posteriori mediante remuestreo.
Se realiza una prueba de hipótesis bilateral en la que la hipótesis nula es que la estadística de la distribución a posteriori es igual a la estadística de la distribución a priori.
La prueba calcula los valores p determinando la proporción de estadísticas de la distribución a posteriori obtenidas mediante bootstrap que son mayores o menores que el valor de la distribución a priori.
Si el valor p es inferior al nivel de importancia ($\alpha=0.05$), se rechaza la hipótesis nula y se informa un cambio significativo para esa estadística específica.
En la tabla de recomendaciones, se indicará que un canal no presenta cambios significativos entre las distribuciones a priori y a posteriori si ninguna de sus estadísticas clave muestra un cambio relevante.
| Condición | Estado | Recomendación |
|---|---|---|
| En todos los canales, hay un cambio significativo entre las distribuciones a priori y a posteriori. | PASS | El modelo aprendió correctamente a partir de los datos. Este es un indicador positivo de que tus datos fueron informativos. |
| En ningún canal, hay un cambio significativo entre las distribuciones a priori y a posteriori. | REVIEW | Detectamos que la distribución a posteriori de los canales X, Y y Z no experimentó cambios significativos respecto de la distribución a priori. Esto sugiere que el indicador de datos para estos canales no fue lo suficientemente sólido como para actualizar las creencias del modelo. Revisa estos canales para determinar si esta situación es esperada (debido a probabilidades a priori sólidas) o problemática (debido a una señal débil). |
Coherencia del ROI
El ROI suele ser el dato de salida más analizado de un MMM. Esta verificación permite garantizar que las estimaciones del ROI generadas por el modelo sean verosímiles. Los valores extremos de ROI pueden indicar errores subyacentes, como problemas con la estimación del valor de referencia o la especificación del modelo.
Meridian realiza esta verificación evaluando la media de la distribución a posteriori del ROI para cada canal de medios pagados en comparación con su correspondiente distribución a priori personalizada. El ROI de un canal se marca como valor atípico si su media de la distribución a posteriori se encuentra en los extremos de la distribución a priori. En particular, se activa el estado REVIEW si la estimación supera el percentil 99 o cae por debajo del percentil 1 de tu creencia previa declarada.
| Condición | Estado | Recomendación |
|---|---|---|
| En todos los canales, la media de la distribución a posteriori del ROI se encuentra entre los percentiles 1 y 99 de su distribución a priori. | PASS | La distribución a posteriori del ROI se encuentra dentro de un rango razonable, lo que se alinea con las distribuciones a priori personalizadas que proporcionaste. |
| En cualquier canal, la media de la distribución a posteriori del ROI se encuentra en los extremos (es decir, por encima del percentil 99 o por debajo del percentil 1) de su distribución a priori. | REVIEW | Detectamos que la media de la distribución a posteriori de los canales X, Y y Z se encuentra en el extremo de tu distribución a priori personalizada. Revisa este resultado para determinar si es razonable en el contexto de tu empresa. |
Esta verificación solo se realiza cuando se establecen distribuciones a priori personalizadas y se omite si se usan distribuciones a priori predeterminadas. Su propósito es detectar conflictos entre el resultado basado en datos del modelo (la distribución a posteriori) y tu hipótesis comercial explícita y basada en la experiencia (la distribución a priori personalizada). Funciona como una alerta práctica cuando los datos contradicen significativamente tus creencias declaradas, lo que indica que debes revisar el modelo o los supuestos. En cambio, las distribuciones a priori predeterminadas no son hipótesis comerciales, sino herramientas estadísticas de uso general para la regularización. Dado que son intencionalmente amplias y no representan el conocimiento específico de tu empresa, comparar el resultado del modelo con ellas no proporcionaría una estadística significativa ni práctica.