Después de recopilar los datos, realiza un análisis de datos exploratorio (EDA) para encontrar y abordar cualquier problema de calidad de los datos. Este es un paso fundamental en el proceso de modelado de combinación de marketing (MMM), ya que te permite evaluar los datos para confirmar que representan con precisión las iniciativas de marketing, las respuestas de los clientes y otras métricas pertinentes. Si corriges los problemas detectados a través del proceso de EDA, puedes mejorar la confiabilidad del resultado del modelo.
El proceso básico para realizar un EDA es el siguiente:
- Ejecuta una revisión de datos para identificar si hay datos faltantes o incompletos.
- Agrega los valores que falten en tus archivos de entrada sin procesar.
- Evalúa la precisión de los datos.
- Corrige las anomalías, los valores atípicos o las imprecisiones en los datos.
- Verifica la correlación entre las variables de control, medios y KPI.
Existen muchas formas de abordar el EDA, por lo que Meridian no proporciona visualizaciones para este proceso. Te recomendamos que, según tus necesidades, encuentres el equilibrio adecuado entre un análisis detallado y exhaustivo para tener más confianza, y una verificación rápida de los datos generales que brinde estadísticas menos detalladas.
Ten en cuenta estos lineamientos cuando crees tus propias visualizaciones para el EDA:
Verifica que los datos estén completos: Revisa si faltan valores en los datos. Puedes crear gráficos que indiquen el porcentaje de completitud de los datos para cada variable (canal) y, luego, analizar las variables que se muestren como incompletas.
Para definir mejor tu EDA, puedes crear visualizaciones que muestren la cantidad de observaciones por año, mes, semana y día de la semana. Busca observaciones inesperadamente más bajas en algún período.
Verifica la precisión de los datos: Asegúrate de que los datos sean precisos y no contengan anomalías ni valores atípicos que puedan sesgar los resultados. Las visualizaciones para verificar la precisión pueden servir para comparar el porcentaje de la inversión en medios de cada canal y verificar la tendencia de un canal para identificar algo inusual. Puedes comparar esas visualizaciones con el plan de medios o trabajar con el equipo de marketing para identificar si los datos son lo suficientemente precisos y detallados.
Verifica el tamaño de los canales: Observa el porcentaje de la inversión de cada canal. Es posible que sea difícil estimar los canales con un porcentaje de inversión muy bajo. Es posible que desees combinarlos con otros canales.
Verifica la variabilidad de la ejecución de medios de los canales: Es posible que los canales con poca variabilidad en la ejecución de medios (impresiones, clics, etc. sean difíciles de estimar. Considera usar una distribución a priori personalizada si tienes información pertinente para ello.
Verifica la correlación entre las variables: Si bien no es necesario que haya una correlación entre las variables de KPI, medios y control, crear visualizaciones para verificar la correlación puede ser útil en los siguientes casos de uso:
Medir la correlación entre las variables de control y de medios para ver si hay alguna relación inesperada. Esto puede ayudarte a decidir si debes conservar o quitar alguna variable de control o de medios.
Identifica la multicolinealidad. Cuando dos o más variables de medios y de control están altamente correlacionadas entre sí, crean multicolinealidad, lo que puede generar que los modelos de regresión tengan dificultades para calcular el impacto de las variables colineales. Si identificas alguna multicolinealidad cuando revisas tus datos, puedes decidir qué variables incluir o excluir en tu modelo.
Una vez que tengas la seguridad de que tus datos son precisos y están completos, puedes cargarlos con un formato compatible y, luego, crear tu modelo.
Verificaciones de datos automáticas
Meridian incluye verificaciones de datos automáticas diseñadas para detectar problemas extremos que generarán falta de convergencia o resultados del modelo poco confiables. Estas verificaciones se ejecutan en las llamadas a sample_posterior o cuando se inicializa el objeto Meridian. Si se encuentra algún problema crítico en los datos, no se ejecutará el muestreo a posteriori. En su lugar, se mostrará un error que detalla el problema crítico y las acciones para corregirlo. Estas verificaciones de datos ahorran tiempo y mejoran la confiabilidad del modelo, ya que te alertan sobre problemas críticos antes del muestreo a posteriori completo. Todas las verificaciones de datos automáticas se realizan sobre los datos escalados automáticamente que se usan para ajustar el modelo. Para obtener más información sobre el escalamiento de los datos de Meridian, consulta Datos de entrada.
En tu conjunto de datos, se realizan automáticamente las siguientes verificaciones críticas:
Correlación por pares
La correlación de Pearson por pares se calcula entre todas las unidades de tratamiento ajustadas (lo que incluye el alcance $\times$ la frecuencia ajustados para los canales de RF y ORF) y las variables de control ajustadas.
En el caso de los modelos geográficos, primero se calcula la correlación por pares en todas las ubicaciones geográficas y períodos. Es decir, para cualquier par de variables $\mathbf{X}_1$ y $\mathbf{X}_2$, se calcula $Corr(\mathbf{X}_1, \mathbf{X}_2)$, donde
\[ \begin{align*} \mathbf{X}_1 &= ( x_{g_1, t_1, 1}, x_{g_1, t_2, 1}, \cdots, x_{g_2, t_1, 1}, x_{g_2, t_2, 1}, \cdots ) \\ \mathbf{X}_2 &= ( x_{g_1, t_1, 2}, x_{g_1, t_2, 2}, \cdots, x_{g_2, t_1, 2}, x_{g_2, t_2, 2}, \cdots ). \end{align*} \]
Se activará un
ERRORsi el par de variables tiene una correlación casi perfecta (el valor absoluto de su correlación por pares supera el umbral predeterminado de 0.999 en todas las ubicaciones geográficas y períodos).f'Some variables have perfect pairwise correlation across all times and geos. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'En este caso, para cada par de variables mencionado en
{var_pairs}en el mensaje de error, quita una de las variables redundantes deInputDatay vuelve a ejecutarsample_posterior.En el caso de los modelos nacionales, se activará un
ERRORsi el valor absoluto de la correlación por pares entre un par de variables es mayor que 0.999 en todos los períodos. Una vez más, quita del modelo una de las variables redundantes mencionadas en el mensaje de error.f'Some variables have perfect pairwise correlation across all times. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'
Multicolinealidad
Para evaluar la multicolinealidad, se calcula el factor de inflación de varianza (VIF) para todas las unidades de tratamiento ajustadas (lo que incluye el alcance $\times$ la frecuencia ajustados para los canales de RF y ORF) y las variables de control ajustadas. El VIF calcula en qué medida aumenta la varianza de una variable explicativa debido a la colinealidad con otras variables del modelo. Un VIF de 1 indica que no hay colinealidad, mientras que los valores más altos sugieren mayores niveles de multicolinealidad. Una multicolinealidad alta puede ampliar los intervalos creíbles de los coeficientes, lo que reduce la confiabilidad de su inferencia a posteriori.
En el caso de los modelos geográficos, primero se calcula el VIF para cada variable en todas las ubicaciones geográficas y períodos. Se activará un
ERRORsi alguna variable puede expresarse casi perfectamente como una combinación lineal de otras variables (el VIF supera el umbral predeterminado de 1,000).f'Some variables have extreme multicollinearity (VIF > 1000) across all times and geos. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'En este caso, descarta cualquier variable redundante mencionada en
{high_vif_vars}en el mensaje de error que podría ser una combinación lineal de otras variables, o bien combina estas variables.En el caso de los modelos nacionales, el VIF se calcula para cada variable en todos los períodos. Se activará un
ERRORsi el VIF de una variable supera el umbral predeterminado de 1,000. Una vez más, descarta o combina las variables redundantes mencionadas en el mensaje de error.f'Some variables have extreme multicollinearity (with VIF > 1000) across all times. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'
Desviación estándar del KPI
Esta verificación calcula la desviación estándar del KPI ajustado en todas las ubicaciones geográficas y los períodos en el caso de los modelos geográficos, o en todos los períodos en el caso de los modelos nacionales. Se activa un
ERRORcuando el KPI ajustado es casi completamente constante, lo que se indica con una desviación estándar inferior a 1e-4. Esto significa que no hay ningún indicador en la variable de respuesta. Debes verificar si hay errores en los datos de entrada o reconsiderar la viabilidad del modelado estadístico con este conjunto de datos.f'{kpi} is constant across all geos and times, indicating no signal in the data. Please fix this data error.'Desviación estándar de las variables explicativas
Esta verificación evalúa la desviación estándar de las variables de control y de tratamiento ajustadas (lo que incluye el alcance ajustado para los canales de RF y ORF). Dado que el modelo de Meridian tiene el efecto principal del tiempo $\mu_t$ (y el efecto principal de la ubicación geográfica $\tau_g$ para los datos a nivel geográfico), evaluamos la variación de estas variables ajustadas a lo largo de las dimensiones temporal y geográfica (si corresponde) por separado por los siguientes motivos:
Variación según la ubicación geográfica
La desviación estándar de las variables ajustadas según la dimensión geográfica solo se evalúa para los conjuntos de datos a nivel geográfico, ya que el modelo a nivel nacional solo tiene una ubicación geográfica. Se produce un
ERRORcuando se estableceknots = n_timesy existe una variable que no varía en las diferentes ubicaciones geográficas (por ejemplo, una variable a nivel nacional incluida en un conjunto de datos a nivel geográfico). Cuando se estableceknots = n_times, cada período obtiene su propio parámetro. Una variable a nivel nacional varía solo en función del tiempo, y no de la ubicación geográfica. Por lo tanto, la variable a nivel nacional es perfectamente colineal con el tiempo y resulta redundante en los modelos que tienen un parámetro para cada período. Esta redundancia te permite conservar la variable a nivel nacional o establecerknots < n_times. La opción que elijas dependerá de tus objetivos de interpretación.f'The following {data_name} variables do not vary across geos, making a model with n_knots=n_time unidentifiable. This can lead to poor model convergence. Since these variables only vary across time and not across geo, they are collinear with time and redundant in a model with a parameter for each time period. To address this, you can either: (1) decrease the number of knots (n_knots < n_time), or (2) drop the listed variables that do not vary across geos.'Variación según el tiempo
La desviación estándar de las variables ajustadas según la dimensión temporal se evalúa para los conjuntos de datos a nivel geográfico y nacional.
En el caso de los modelos geográficos, se produce un
ERRORcuando existe una variable que no varía con el tiempo, lo que es perfectamente colineal con el efecto principal de la ubicación geográfica $\tau_g$. Como esta variable redundante genera una convergencia deficiente del modelo, debes descartar la variable que no varía con el tiempo.f'The following {data_name} variables do not vary across time making a model with geo main effects unidentifiable. This can lead to poor model convergence. Since these variables only vary across geo and not across time, they are collinear with geo and redundant in a model with geo main effects. To address this, drop the listed variables that do not vary across time.'En el caso de los modelos nacionales, una variable que no varía con el tiempo es un término constante que no aporta ninguna señal y perjudica la convergencia del modelo. Debes quitar esta variable constante del modelo.
f'The following {data_name} variables do not vary across time, which is equivalent to no signal at all in a national model. This can lead to poor model convergence. To address this, drop the listed variables that do not vary across time.'