必要なデータ量

このセクションには、必要なデータ量を把握するための情報をまとめています。正確なデータ量はデータの内容によって異なるため、このガイダンスは大まかな方向性を示すものです。

  • データサイズは、地域の数に時点の数を掛けたものです。

  • これらの時点と地域は独立していません。たとえば、マーケティング ミックス モデリング(MMM)設定の 1,000 個のデータポイントは、1,000 回のコイントスや、テストでランダムに割り当てられた 1,000 人の参加者とは異なります。

全国モデルと地域モデルのセクションもご確認ください。

全国モデルのデータ量

全国モデルの信頼性を測る重要指標は、把握したい測定対象の効果あたりのデータポイント数です。たとえば、メディア チャネルが 12 個、コントロールが 6 個、ノットが 8 個ある場合、効果の合計は 26 個になります(この例では、わかりやすくするため、Adstock と Hill のパラメータは無視します)。2 年分の週次データがある場合は、データポイントは 104 個となり、効果あたりのデータポイント 4 個となります。その場合はサンプルサイズが小さいシナリオとなり、データは不十分です(また、メディア費用の分散が不十分だと、全国モデルに悪影響が生じます)。ノットの詳細については、knots 引数の動作をご確認ください。

全国モデルに十分なデータを取得するのは難しいため、次のように対処します。

  • マーケティング ミックス モデリングの範囲を狭めます。推定対象のメディア チャネルを減らす(費用の少ないチャネルを除外するか、チャネルを統合する)、時間効果を推定するためのノットを減らす、不要なコントロールを削除するなどが考えられます。ただし、重要な交絡因子は削除しないでください。

  • 取得するデータを大幅に増やします。たとえば、2 年ではなく 3 年間の週次データを使用します。データ量を増やすと推論の分散は小さくなりますが、推論の関連性が低下する場合もあります。

  • それで、範囲を狭めたり、データを増やしたりするのではなく、データに地域の粒度を追加して地域モデルを使用する方法をおすすめです。

前述の例を使って全国モデルについて考えてみましょう。12 個のメディア チャネルを 3 つにまとめ、ノットを 2 つに減らすことができます。また、KPI の説明にはなっているものの、メディアの説明にはなっていないコントロールが見つかる場合もあります。この場合、そのコントロールは実際には交絡因子ではないため、削除しても問題ありません。3 年分の週単位データも使用する場合は、10 個の効果を推定するためのデータポイントは 156 個になります。効果あたりのデータポイントは約 15 個になるため、マーケティング ミックス モデリングから方向性に関する情報をある程度収集できるようになります。

地域モデルのデータ量

測定対象の効果あたりのデータポイント数も、信頼性を測る重要指標であることに変わりはありません。ただし、地域階層のため、この指標は解釈が容易ではありません。たとえば、12 個のメディア チャネル、6 個のコントロール、100 個のノット、105 個の地域がある場合、推定する効果の数はおおよそ $(12 \times 105)+(6 \times 105)+ 100 = 1,990$ となります(メディアとコントロールには地域レベルの効果があるため、地域の数の 105 で乗算しています)。3 年分の週単位データがある場合は、データポイント数は $105 \times(52 \times 3)= 16,380$ となります。効果ごとに約 8 個のデータポイントです。わかりやすくするため、この例では Adstock と Hill のパラメータは無視します。

この例では考慮されていない重要ポイントは、地域階層の定義により、地域レベルのメディアおよびコントロールの効果は、地域間で独立しているわけではないということです。つまり、メディア チャネル 1 が地域 1 に与える効果と、メディア チャネル 1 が地域 2 に与える効果を推定する際は、データが共有されます。コントロールについても同様です。データが共有されるため、実質的には、効果ごとに 8 個を超えるデータポイントが使用されます。共有されるデータの量は、地域間での効果の類似性によって異なります。これは、eta_m パラメータと xi_c パラメータによって決まります。

地域レベルのモデルに十分なデータを取得するのが難しい場合は、メディア チャネルを統合するか、費用の少ないメディア チャネルを削除することをおすすめします。または、階層分散項 eta_mxi_c に、より正規化された事前分布(HalfNormal(0.1) など)を適用することもできます。これにより、地域間で情報を共有しやすくなります。

キャンペーン単位のデータの使用について

メリディアン モデルで使用できるのはチャネルレベルのデータのみです。マーケティング ミックス モデリングはチャネルレベルで効果を発揮するマクロツールであるため、通常はキャンペーン レベルで実行することはおすすめしません。開始と終了が厳密な別個のキャンペーンを使用すると、Adstock のメモリが失われる恐れがあります。より詳細なインサイトを入手したい場合は、デジタル チャネル向けのデータドリブン マルチタッチ アトリビューションを使用することをおすすめします。