Explorative Datenanalyse durchführen

Nachdem Sie Ihre Daten erhoben haben, sollten Sie eine explorative Datenanalyse durchführen, um Probleme mit der Datenqualität zu ermitteln und zu beheben. Dies ist ein entscheidender Schritt beim Marketing Mix Modeling (MMM), da Sie die Daten so bewerten und bestätigen können, dass sie Werbemaßnahmen, Kundenreaktionen und andere relevante Messwerte genau darstellen. Wenn Sie Probleme beheben, die im Rahmen der explorativen Datenanalyse ermittelt werden, können Sie die Zuverlässigkeit der Modellausgabe weiter verbessern.

Die grundlegenden Schritte für die Durchführung einer explorativen Datenanalyse:

  1. Prüfen Sie die Daten, um zu ermitteln, ob Daten fehlen oder unvollständig sind.
  2. Beheben Sie Probleme mit fehlenden Werten in Ihren Roheingabedateien.
  3. Prüfen Sie die Richtigkeit der Daten.
  4. Beheben Sie alle Anomalien, Ausreißer oder Ungenauigkeiten in den Daten.
  5. Analysieren Sie die Korrelation zwischen KPI-, Media- und Kontrollvariablen.

Es gibt viele Möglichkeiten, explorative Datenanalysen zu nutzen. Daher stellt Meridian keine Visualisierungen für diesen Prozess bereit. Sie sollten das richtige Gleichgewicht zwischen einer gründlichen, detaillierten Analyse für mehr Zuverlässigkeit und einer schnellen Überprüfung von Daten auf hoher Ebene, die weniger detaillierte Ergebnisse liefert, finden.

Berücksichtigen Sie diese Richtlinien, wenn Sie Ihre eigenen Visualisierungen erstellen, um Ihre explorative Datenanalyse zu unterstützen:

  • Vollständigkeit der Daten prüfen: Prüfen Sie, ob in den Daten Werte fehlen. Sie können Diagramme erstellen, in denen der Prozentsatz der Datenvollständigkeit für jede Variable (jeden Channel) angezeigt wird. Anschließend können Sie die Variablen untersuchen, die als unvollständig angezeigt werden.

    Um die explorative Datenanalyse weiter zu verfeinern, können Sie Visualisierungen erstellen, die die Anzahl der Beobachtungen nach Jahr, Monat, Woche und Wochentag anzeigen. Suchen Sie nach unerwartet niedrigen Werten für einen Zeitraum.

  • Richtigkeit der Daten prüfen: Daten müssen fehlerfrei sein und dürfen keine Anomalien oder Ausreißer enthalten, die die Ergebnisse verfälschen könnten. Sie können beispielsweise den Anteil der Media-Ausgaben für jeden Channel vergleichen und den Trend eines Channels prüfen, um Ungewöhnliches zu erkennen. Sie können diese Visualisierungen mit dem Mediaplan vergleichen oder mit dem Marketingteam zusammenarbeiten, um festzustellen, ob die Daten genau und detailliert genug sind.

  • Channelgröße prüfen: Sehen Sie sich den Anteil der Ausgaben für den Channel an. Es kann schwierig sein, genaue Schätzungen für Channels mit einem sehr geringen Anteil an Ausgaben zu erhalten. Daher ist es sinnvoll, sie mit anderen Channels zu kombinieren.

  • Variabilität der Media-Ausführung von Channels prüfen: Es kann schwierig sein, genaue Schätzungen für Channels mit geringer Variabilität bei der Media-Ausführung (Impressionen, Klicks usw.) zu erhalten. Wenn Sie relevante Informationen dafür haben, sollten Sie einen benutzerdefinierten A-priori-Wert verwenden.

  • Korrelation zwischen Variablen prüfen: Obwohl eine Korrelation zwischen KPI-, Media- und Kontrollvariablen nicht erforderlich ist, kann es in den folgenden Anwendungsfällen hilfreich sein, Visualisierungen zu erstellen, um dies zu prüfen:

    • Korrelation zwischen Media- und Kontrollvariablen analysieren, um festzustellen, ob es unerwartete Beziehungen gibt: So können Sie leichter entscheiden, ob Sie eine Media- oder Kontrollvariable beibehalten oder entfernen möchten.

    • Multikollinearität identifizieren: Wenn zwei oder mehr Media- und Kontrollvariablen stark miteinander korrelieren, entsteht Multikollinearität. Das kann dazu führen, dass Regressionsmodelle die Auswirkungen der kollinearen Variablen nur schwer berechnen können. Falls Sie beim Überprüfen Ihrer Daten eine Multikollinearität feststellen, können Sie entscheiden, welche Variablen in Ihr Modell aufgenommen oder daraus ausgeschlossen werden sollen.

Wenn Sie sicher sind, dass Ihre Daten korrekt und vollständig sind, können Sie sie in einem unterstützten Format laden und dann Ihr Modell erstellen.

Automatisierte Datenprüfungen

Meridian führt automatisierte Datenprüfungen durch, um schwerwiegende Datenprobleme zu erkennen, die zu Nichtkonvergenz oder unzuverlässigen Modellergebnissen führen können. Diese Prüfungen werden automatisch bei sample_posterior-Aufrufen oder beim Initialisieren des Meridian-Objekts ausgeführt. Wird ein kritisches Problem in den Daten gefunden, bricht Meridian die Posterior-Stichprobenerhebung ab und gibt stattdessen eine Fehlermeldung mit einer Beschreibung des Problems sowie Hinweisen zu dessen Behebung aus. Diese frühzeitigen Prüfungen sparen Zeit und erhöhen die Vertrauenswürdigkeit des Modells, da potenzielle Probleme erkannt werden, bevor die vollständige Posterior-Stichprobenerhebung gestartet wird. Alle automatisierten Datenprüfungen werden für die automatisch skalierten Daten durchgeführt, die zum Anpassen des Modells verwendet werden. Weitere Informationen zur Skalierung von Daten finden Sie unter Eingabedaten.

Die folgenden wichtigen Prüfungen werden automatisch für Ihr Dataset durchgeführt:

  1. Paarweise Korrelation

    Die paarweise Pearson-Korrelation wird zwischen allen skalierten Testeinheiten (einschließlich der skalierten Werte für Reichweite $\times$ Häufigkeit für RF- und ORF-Channels) sowie für alle skalierten Kontrollvariablen berechnet. „RF“ steht für „Media für Reichweite und Häufigkeit“ und „ORF“ für „organische Media für Reichweite und Häufigkeit“.

    • Bei einem Geo-Modell wird die paarweise Korrelation zuerst für alle geografischen Einheiten und Zeiträume berechnet. Das heißt, für zwei beliebige Variablen $\mathbf{X}_1$ und $\mathbf{X}_2$ wird $Corr(\mathbf{X}_1, \mathbf{X}_2)$ berechnet, wobei Folgendes gilt:

      \[ \begin{align*} \mathbf{X}_1 &= ( x_{g_1, t_1, 1}, x_{g_1, t_2, 1}, \cdots, x_{g_2, t_1, 1}, x_{g_2, t_2, 1}, \cdots ) \\ \mathbf{X}_2 &= ( x_{g_1, t_1, 2}, x_{g_1, t_2, 2}, \cdots, x_{g_2, t_1, 2}, x_{g_2, t_2, 2}, \cdots ). \end{align*} \]

      Ein ERROR wird ausgelöst, wenn ein Variablenpaar eine nahezu perfekte Korrelation aufweist. Das ist der Fall, wenn der absolute Wert der paarweisen Korrelation in allen geografischen Einheiten und Zeiträumen den Standardgrenzwert von 0,999 überschreitet.

      f'Some variables have perfect pairwise correlation across all times and geos. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'

      Entfernen Sie in diesem Fall für jedes in der Fehlermeldung unter {var_pairs} aufgeführte Variablenpaar eine der redundanten Variablen aus InputData und führen Sie sample_posterior noch einmal aus.

    • Bei einem Modell auf Länderebene wird ein ERROR ausgelöst, wenn der absolute Wert der paarweisen Korrelation eines Variablenpaars über alle Zeiträume hinweg größer als 0,999 ist. Entfernen Sie auch hier eine der in der Fehlermeldung genannten redundanten Variablen aus dem Modell.

      f'Some variables have perfect pairwise correlation across all times. For each pair of perfectly-correlated variables, please remove one of the variables from the model.\nPairs with perfect correlation: {var_pairs}'

  2. Multikollinearität

    Zur Beurteilung der Multikollinearität wird der Varianzinflationsfaktor (VIF) für alle skalierten Testeinheiten (einschließlich der skalierten Werte für Reichweite $\times$ Häufigkeit für RF- und ORF-Channels) sowie für alle skalierten Kontrollvariablen berechnet. Ein VIF schätzt, inwieweit die Varianz einer erklärenden Variablen aufgrund von Kollinearität mit anderen Variablen im Modell erhöht wird. Ein VIF von 1 weist auf keine Kollinearität hin, während höhere Werte auf zunehmende Multikollinearität hindeuten. Eine hohe Multikollinearität kann die Breite der glaubwürdigen Intervalle der Koeffizienten erhöhen und dadurch die Zuverlässigkeit der Posterior-Inferenz mindern.

    • Bei einem Geo-Modell wird der VIF-Wert zuerst für jede Variable über alle geografischen Einheiten und Zeiträume hinweg berechnet. Ein ERROR wird ausgelöst, wenn eine Variable nahezu perfekt als lineare Kombination anderer Variablen ausgedrückt werden kann. Das ist der Fall, wenn der VIF-Wert den Standardgrenzwert von 1.000 überschreitet.

      f'Some variables have extreme multicollinearity (VIF > 1000) across all times and geos. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'

      Entfernen Sie hier entweder die in der Fehlermeldung unter {high_vif_vars} aufgeführten redundanten Variablen, die eine lineare Kombination anderer Variablen sein könnten, oder kombinieren Sie diese Variablen.

    • Bei einem Modell auf Länderebene wird der VIF für jede Variable über alle Zeiträume hinweg berechnet. Ein ERROR wird ausgelöst, wenn der VIF einer Variablen den Standardgrenzwert von 1.000 überschreitet. Entfernen oder kombinieren Sie auch hier die in der Fehlermeldung genannten redundanten Variablen.

      f'Some variables have extreme multicollinearity (with VIF > 1000) across all times. To address multicollinearity, please drop any variable that is a linear combination of other variables. Otherwise, consider combining variables.\nVariables with extreme VIF: {high_vif_vars}'

  3. Standardabweichung des KPI

    Bei dieser Prüfung wird die Standardabweichung des skalierten KPI berechnet – für alle geografischen Einheiten und Zeiträume bei einem Geo-Modell bzw. für alle Zeiträume bei einem Modell auf Länderebene. Ein ERROR wird ausgelöst, wenn der skalierte KPI nahezu konstant ist, d. h. wenn die Standardabweichung kleiner als 1e-4 ist. In diesem Fall gibt es kein Signal in der Antwortvariablen. Sie sollten nach Dateneingabefehlern suchen oder die Machbarkeit der statistischen Modellierung mit diesem Dataset überdenken.

    f'{kpi} is constant across all geos and times, indicating no signal in the data. Please fix this data error.'

  4. Standardabweichung der erklärenden Variablen

    Bei dieser Prüfung wird die Standardabweichung der skalierten Kontroll- und Testvariablen bewertet, einschließlich der skalierten Werte für die Reichweite für RF- und ORF-Channels. Da das Meridian-Modell einen Zeithaupteffekt $\mu_t$ (und einen Geohaupteffekt $\tau_g$ für Daten auf geografischer Ebene) enthält, wird die Variation dieser skalierten Variablen getrennt entlang der Zeitdimension und – sofern zutreffend – entlang der geografischen Dimension bewertet. Dies passiert aus folgenden Gründen:

    • Variation nach geografischer Einheit

      Die Standardabweichung der skalierten Variablen entlang der geografischen Dimension wird nur für Datasets auf geografischer Ebene bewertet, da das Ländermodell nur eine einzige geografische Einheit umfasst. Ein ERROR tritt auf, wenn knots = n_times gesetzt ist und eine Variable vorhanden ist, die sich nicht zwischen den geografischen Einheiten unterscheidet (z. B. eine Variable auf Länderebene in einem Dataset auf geografischer Ebene). Bei knots = n_times hat jeder Zeitraum einen eigenen Parameter. Eine Variable auf Länderebene variiert nur zeitlich, nicht geografisch. Dadurch ist sie perfekt kollinear mit der Zeit und somit redundant in einem Modell, das für jeden Zeitraum einen eigenen Parameter enthält. „Redundant“ bedeutet, dass Sie entweder die Variable auf Länderebene beibehalten oder knots < n_times festlegen können. Welche Option Sie wählen, hängt von Ihren Interpretationszielen ab.

      f'The following {data_name} variables do not vary across geos, making a model with n_knots=n_time unidentifiable. This can lead to poor model convergence. Since these variables only vary across time and not across geo, they are collinear with time and redundant in a model with a parameter for each time period. To address this, you can either: (1) decrease the number of knots (n_knots < n_time), or (2) drop the listed variables that do not vary across geos.'

    • Variation im Zeitverlauf

      Die Standardabweichung der skalierten Variablen wird sowohl für Datasets auf geografischer als auch auf Länderebene entlang der Zeitdimension bewertet.

      • Bei einem Geo-Modell tritt ein ERROR auf, wenn eine Variable im Zeitverlauf konstant bleibt und perfekt kollinear mit dem geografischen Haupteffekt $\tau_g$ ist. Eine solche redundante Variable kann die Modellkonvergenz stark beeinträchtigen. Entfernen Sie daher alle Variablen, die sich im Zeitverlauf nicht ändern.

        f'The following {data_name} variables do not vary across time making a model with geo main effects unidentifiable. This can lead to poor model convergence. Since these variables only vary across geo and not across time, they are collinear with geo and redundant in a model with geo main effects. To address this, drop the listed variables that do not vary across time.'

      • Bei einem Modell auf Länderebene ist eine Variable, die sich im Zeitverlauf nicht ändert, ein konstanter Term ohne jegliches Signal. Eine solche Variable verschlechtert die Modellkonvergenz und sollte aus dem Modell entfernt werden.

        f'The following {data_name} variables do not vary across time, which is equivalent to no signal at all in a national model. This can lead to poor model convergence. To address this, drop the listed variables that do not vary across time.'