Анализ цепи Маркова

Статистическая функция цепи Маркова использует вероятностные методы, чтобы назначать долю ценности точкам взаимодействий с учетом их смоделированного влияния на вероятность конверсии. Результатом работы этой экспериментальной функции может стать назначение ценности определенному рекламному каналу, кампании или другой точке взаимодействия с учетом их смоделированного влияния на события-конверсии.

Принцип работы

Статистическая функция цепи Маркова использует ваши рекламные данные, чтобы создать цепь Маркова, в которой каждая вершина упорядоченного графика соответствует точке взаимодействия, а каждое ребро показывает вероятность перехода от текущей точки к следующей. Предполагается, что на вероятность перехода влияет только текущая точка. Чтобы рассчитать влияние каждой точки, она удаляется с графика, и после этого вычисляется смоделированная вероятность конверсии.

Ограничения для защиты конфиденциальности

У точки взаимодействия должно насчитываться не менее 50 пользователей, совершивших конверсию, и не менее 50 – не совершивших, в противном случае она будет отфильтрована для сохранения конфиденциальности. Также фильтры могут удалять аномальных пользователей, которые нетипичным образом влияют на ценность точки взаимодействия. Поэтому в результатах моделирования цепи Маркова могут отсутствовать некоторые точки взаимодействия, включенные в исходную таблицу точек взаимодействия.

После каждого создания модели цепи Маркова показываются сообщения о конфиденциальности, в которых указано, какие пользователи и точки взаимодействия были отфильтрованы.

Как рассчитываются значения цепи Маркова

  1. Создайте таблицы точек взаимодействия и доли ценности пользователей:
    1. touchpoint_temp_table;
    2. user_credit_temp_table.
  2. Вызовите функцию ADH.TOUCHPOINT_ANALYSIS, возвращающую табличное значение, задав в качестве аргументов указанные выше временные таблицы.

Как создать таблицы точек взаимодействия и доли ценности пользователей

Как создать таблицу точек взаимодействия

В таблице точек взаимодействия определяются события пользователей, связанные с этими точками. Например, там могут содержаться такие данные, как campaign_id, creative_id, placement_id и site_id.

Таблица должна содержать следующие столбцы:

Название столбца Тип
touchpoint string
Произвольное название точки взаимодействия (не может быть пустым или содержать запятые).
user_id string
Идентификатор пользователя, посетившего точку взаимодействия (не может быть пустым или равняться 0).
event_time int
Время посещения точки взаимодействия (не должно быть пустым).

Пример кода для создания таблицы:

CREATE TABLE touchpoint_temp_table
AS (
  SELECT user_id, event.event_time, CAST(event.site_id AS STRING) AS touchpoint
  FROM adh.cm_dt_impressions
  WHERE
    event.event_type IN ('VIEW')
    AND user_id <> '0'
    AND event.campaign_id IN UNNEST(@campaign_ids)

  UNION ALL

    SELECT
      user_id, event.event_time, CAST(event.site_id AS STRING) AS touchpoint
    FROM adh.cm_dt_clicks
    WHERE
      event.event_type IN ('CLICK')
      AND user_id <> '0'
      AND event.campaign_id IN UNNEST(@campaign_ids)
);

Как создать таблицу доли ценности пользователей

В таблице доли ценности пользователей определяются события-конверсии. События, которые происходят после конверсий, не считаются конверсиями.

Таблица должна содержать следующие столбцы:

Название столбца Тип
user_id string
Идентификатор пользователя, посетившего точку взаимодействия (не может быть пустым или равняться 0).
event_time int
Время события-конверсии (не должно быть пустым).
credit integer
Доля ценности пользователя. Может представлять собой любые факторы, которые вам нужно проанализировать, например ценность конверсии, количество конверсий и т. п. Принимает значения от 1 до 100.

Пример кода для создания таблицы:


CREATE TABLE user_credit_temp_table AS (
  SELECT
    user_id,
    MAX(event.event_time) AS event_time,
    1 AS credit
  FROM adh.cm_dt_activities_attributed
  WHERE user_id <> '0'
    AND event.campaign_id IN UNNEST(@campaign_ids)
    AND DATE(TIMESTAMP_MICROS(event.event_time)) BETWEEN @start_date AND @end_date
    AND event.activity_id IN UNNEST (@activity_ids)
  GROUP BY user_id
);

Функция, возвращающая табличное значение

Запросы к функциям, возвращающим табличное значение, строятся так же, как и к таблицам.

Синтаксис

ADH.TOUCHPOINT_ANALYSIS(TABLE touchpoints_tmp_table_name, TABLE credits_tmp_table_name, STRING model_name)

Аргументы

Название
touchpoints_tmp_table_name Название временной таблицы точек взаимодействия, созданной клиентом. Схема таблицы должна содержать столбцы touchpoint, user_id и event_time.
credits_tmp_table_name Название временной таблицы доли ценности пользователей, созданной клиентом. Схема таблицы должна содержать столбцы user_id, credit и conversion_time.
model string
Должна иметь значение MARKOV_CHAINS.

Таблица результатов

Таблица результатов будет содержать следующие данные:

Название столбца Тип
touchpoint string
Название точки взаимодействия.
score integer
Рассчитанное значение цепи Маркова для этой точки.

Пример кода для использования функции, возвращающей табличное значение

SELECT *
FROM ADH.TOUCHPOINT_ANALYSIS(
  TABLE tmp.touchpoint_temp_table,
  TABLE tmp.user_credit_temp_table,
  'MARKOV_CHAINS')