效果衡量测试指南

本指南旨在介绍如何运行 Privacy Sandbox Attribution Reporting API 的独立测试。如需了解详情,请参阅:第 12 节

  • 相关性 API 测试指南中介绍了 CMA 实验设计 1 和 2 中对照组和实验组的结果,因为这些实验的目标是测试使用 Protected Audience 和 Topics 的效果。如需了解详情,请参阅第 11 节

准备工作

  • 查看有关如何配置和设置 Attribution Reporting API 的指导。
  • 查看 CMA 测试指南:实验说明(2022 年 11 月)、测试指南(2023 年 6 月)和其他测试指南(2023 年 10 月)。

评估目标和建议的实验设置

目标 1 - 确定 Attribution Reporting API 生成报告的效果

我们提议进行 A/A 设置,以衡量对报表的影响

  • 此方案符合 CMA 关于评估基于转化的指标的指南。如需了解详情,请参阅第 21 节第 12 节
  • 相较于 A/B 模式,我们更倾向于使用这种方法,因为对于 Attribution Reporting API (ARA) 测试,可以使用两种不同的衡量方法(第三方 Cookie + 非第三方 Cookie 数据、ARA + 非第三方 Cookie 数据)同时衡量同一组展示带来的转化情况。
  • A/A 实验还会分离 Attribution Reporting API 对转化衡量的影响(例如,该实验可以避免由于缺少第三方 Cookie 而导致转化率发生变化)。

建议的分析点

  • 选择足够大的流量部分,以便获得具有统计显著性的结果,并且同时具有第三方 Cookie 和 Privacy Sandbox API。理想情况下,这是指除模式 B(停用第三方 Cookie)之外的所有流量。
    • 我们建议您将模式 B 从 A/A 实验中排除,因为第三方 Cookie 不可用,并且您也无法将 ARA 结果与第三方基于 Cookie 的归因结果进行比较。
    • 如果您希望纳入模式 B,则应考虑为模式 B 部分流量启用调试报告。调试报告将帮助您排查任何配置或实现问题。
  • 如果您计划针对较小的流量进行测试,我们预计您获得的衡量结果会比预期更嘈杂。我们建议您在分析中注明所用的流量比例,以及报告的结果是基于带噪声的报告还是不带噪声的调试报告。
    • 对于摘要报告,您的汇总值可能会比较低,并且汇总服务会添加来自同一分布的噪声(无论摘要值如何)。
  • 针对这部分流量测试不同的衡量方法
    • 对照组 1 - 使用当前衡量方法(第三方 Cookie + 非第三方 Cookie 数据)
    • (可选)对照组 2 - 无 Privacy Sandbox,无第三方 Cookie,即仅使用非第三方 Cookie 数据
      • 请注意,某些网站可能仍然能使用一些第三方 Cookie - 为了获得最准确的结果,请勿在对照组 2 或实验组方法中使用这些第三方 Cookie 进行衡量
    • 处理 - Privacy Sandbox API 和非第三方 Cookie 数据
      • 请注意,某些网站可能仍然能使用一些第三方 Cookie - 为了获得最准确的结果,请勿在对照组 2 或实验组方法中使用这些第三方 Cookie 进行衡量

指标

  • 指定哪些指标适合您的业务来衡量成效,并说明指标的含义及衡量方式。
    • 我们建议您重点关注对广告客户较为重要的维度和指标。例如,如果您的广告客户关注购买转化,则可以衡量这些转化和购买价值。
  • 基于计数或总和的指标(例如转化率)比基于每次转化费用(例如每次转化费用)的指标更适合使用。对于 A/A 分析,费用指标可以完全通过转化价值的计数或总和得出。
  • 指定指标是基于事件级报告、摘要报告,还是基于这两种报告的组合(以及是否使用了调试报告)。
  • 请参阅建议的模板表格,了解如何设置定量反馈的格式。

分析

  • 覆盖范围:
    • 与第三方 Cookie 相比,您是否能够在一组类似的用户中进行衡量?您是否实现了更高的覆盖率(例如从应用到网站)?
    • 您能否衡量自己或广告客户最关心的转化(以及维度或指标)?
  • 定量反馈
    • 例如,在广告客户报告中,您能报告给该广告客户的关键转化百分比,或者有多少广告系列符合报告质量标准(得出质量标准有助于为转化次数较少的广告系列进行调整)
    • 例如,按广告客户划分,目前是否有一些广告客户在报告方面逐渐依赖或降低第三方 Cookie 的依赖性?
  • 其他定性反馈:
    • ARA 对广告主衡量/归因设置的复杂性有何影响?
    • ARA 是帮助还是阻碍广告客户专注于重要的指标和目标?

用于报告影响的建议模板表

(报告)表 1:

用于向 CMA 报告实验结果的示例模板表格(取自第 18 页,但测试人员应考虑哪些指标最有意义 / 最可行,以便提供并视需要调整表格)

实验组与对照组 1
将提议的最终状态与当前状态进行比较
实验组与对照组 2
比较了在完全没有 PS API 的情况下提议的最终状态。
对照组 2 与对照组 1
使用或不使用第三方 Cookie(不使用任何 PS API)时比较转化衡量。
衡量方法 将实验组的转化衡量方式(ARA 和非第三方 Cookie 数据)与对照组 1(第三方 Cookie 和非第三方 Cookie 数据)进行比较 将实验组(ARA 和非第三方 Cookie 数据)的转化衡量方式与对照组 2(仅限非第三方 Cookie 数据)进行比较 将对照组 2(仅限非第三方 Cookie 数据)与对照组 1(第三方 Cookie 和非第三方 Cookie 数据)的转化衡量进行比较
单位费用带来的转化次数 效果 效果 效果
标准错误 标准错误 标准错误
95% 置信区间 95% 置信区间 95% 置信区间
总转化次数 效果 效果 效果
标准错误 标准错误 标准错误
95% 置信区间 95% 置信区间 95% 置信区间
转化率 效果 效果 效果
标准错误 标准错误 标准错误
95% 置信区间 95% 置信区间 95% 置信区间
(添加您自己的指标)
(报告)表 2:

用于报告实验组和对照组指标的描述性统计信息的示例模板表格(取自第 20 页,但测试人员应考虑哪些指标最有意义 / 最可行,以便提供并视需要调整表格)

指标 实验组
使用 ARA 和您使用的所有非第三方 Cookie 数据来衡量转化
对照组 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 数据衡量转化
对照组 2
仅使用非第三方 Cookie 数据进行转化衡量
单位费用带来的转化次数 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
总转化次数 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
转化率 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
(添加您自己的指标)

目标 2 - 确定 Attribution Reporting API 的出价优化效果

我们提议采用 A/B 设置来衡量对出价优化的影响。

  • 要衡量对出价优化的影响,您需要训练两种不同的机器学习模型,并针对两部分流量使用这两个模型:一个使用当前衡量方法(第三方 Cookie + 非第三方 Cookie 数据)训练的模型并应用于对照组,另一个使用 Attribution Reporting API 和非第三方 Cookie 数据训练的模型应用于实验组。
  • 即使实验组的流量较小,且训练人群重叠,但实验组的流量较少,也应基于测试人员认为最大限度提升效果所需的全部流量来训练模型(例如,使用针对所有流量进行训练的现有第三方 Cookie 模型,并基于为目标 1 启用的所有 ARA 流量训练 ARA 模型)。
    • 如果将结果提交给 CMA,请注意用于训练不同模型的流量细分之间是否存在显著差异(例如,如果基于第三方 Cookie 的模型是针对 100% 流量训练的,但基于 ARA 的模型仅针对 1% 的流量进行训练)。
  • 如果可能,对实验组和对照组出价模型的训练时间应相同。
  • 考虑是否应在实验期间持续训练和更新出价模型;如果这样做,是应该针对尽可能多的流量进行训练,还是仅针对来自实验组和对照组的流量进行训练。
  • 您应针对不相交的流量切片使用不同的模型,作为 A/B 实验。对于实验组和对照组的用户随机分配和分配情况,我们建议使用 Chrome 协助的标记浏览器组(模式 A),或使用一组随机浏览器运行您自己的实验。我们不建议使用模式 B,因为缺少第三方 Cookie 会导致难以针对基于转化的指标生成报告。
    • Chrome 协助浏览器群组会排除部分 Chrome 实例(例如企业 Chrome 用户),而您自己的随机浏览器组可能不会排除这些 Chrome 实例。因此,您应仅针对模式 A 组运行实验,或仅针对非模式 A/模式 B 组运行实验,以免将获得 Chrome 协助组的指标与在 Chrome 协助组以外获得的指标进行比较。
    • 如果未使用 Chrome 协助标记的浏览器组(例如,针对其他流量运行实验),请执行以下操作:
      • 确保用户实验组和对照组是随机且无偏见的。无论实验组设置如何,都要评估实验组和对照组的特征,以确保实验组和对照组具有可比性。(请参阅:第 15 条
      • 确保实验组和对照组的用户特征和广告系列配置相同(例如,在实验组和对照组中使用相似的地理位置)。(请参阅:第 28 节
        • 具体示例包括:确保使用相同的归因回溯期和归因逻辑衡量类似的转化类型,广告系列定位类似受众群体、兴趣群体和地理位置,并使用类似的广告文案和广告格式。
      • 确保实验组和对照组的初始人口规模足够大,可以灵活选择出价和实验。
    • 如果使用的是 Chrome 协助的有标签浏览器组(模式 A),则 Chrome 会处理将 Chrome 浏览器实例随机分配到组的操作。建议您像之前一样检查一下,以您的目的而言,随机分配的分组结果不会偏见 / 具有可比性。

建议的分析点

  • 我们建议您为每个实验组定义对照组和实验组,并使用不同的机器学习模型优化出价:
    • 对照组 1 - 使用根据当前衡量方法训练的出价优化模型(第三方 Cookie + 非第三方 Cookie 数据)
    • (可选)对照组 2 - 使用未经 Privacy Sandbox 和第三方 Cookie(即仅使用非第三方 Cookie 数据)训练的出价优化模型
      • 请注意,某些网站可能仍然能使用一些第三方 Cookie。为了获得最准确的结果,请勿在对照组 2 或实验组方法中使用这些第三方 Cookie 进行衡量。
    • 实验组 - 使用根据 Attribution Reporting API 和非第三方 Cookie 数据训练的出价优化模型
      • 请注意,某些网站可能仍然能使用一些第三方 Cookie。为了获得最准确的结果,请勿在对照组 2 或实验组方法中使用这些第三方 Cookie 进行衡量。

指标

  • 指定哪些指标适合您的业务来衡量成效,并说明指标的含义及衡量方式。
    • 例如,有意义的指标可以是支出(发布商收入),此指标与 CMA 的指南(了解弃用第三方 Cookie 对“每次展示收入”)的影响保持一致。有关详情,请参阅第 19 节
  • 如果要报告任何基于转化的指标,您应对每个实验组使用相同的衡量方法,以避免多变量测试(在一个实验中测试对优化和报告的影响)。请参阅建议的模板表格,了解如何设置定量反馈的格式。
  • 考虑通过其他方式来收集有关出价优化影响的指标,例如使用模拟出价。是否有任何模拟指标可帮助您了解第三方 Cookie 和 ARA 对出价模型的影响?
  • 指定指标是基于事件级报告、摘要报告,还是基于这两种报告的组合(以及是否使用了调试报告)。

分析

  • 覆盖范围:
    • 与第三方 Cookie 相比,您是否能够在一组类似的用户中进行衡量?覆盖率是否有任何变化(例如从应用到网站)?
    • 您能否衡量自己或广告客户最关心的转化(和维度/指标)?
  • 这两组之间的差异对以下方面有何影响:
    • 例如,广告客户能够报告哪些关键转化所占的百分比。
    • 例如,训练和优化可以模拟不同转化数据对模型效果的影响。
  • 其他定性反馈:
    • ARA 对广告客户出价优化设置的复杂性有何影响?
    • ARA 是帮助还是妨碍广告主专注于重要的指标和目标?

有关出价影响的建议模板表格

(出价)表 1:

市场参与者应提交给 CMA 的实验结果模板表格示例(取自第 18 页,但测试人员应考虑提供哪些指标最有意义 / 最可行,并根据需要调整表格)

实验组与对照组 1
将提议的最终状态与当前状态进行比较
实验组与对照组 2
比较了在完全没有 PS API 的情况下提议的最终状态。
对照组 2 与对照组 1
比较使用第三方 Cookie 和不使用第三方 Cookie(不使用任何 PS API)的出价优化情况。
衡量方法 为避免多变量测试,请在每个实验中使用第三方 Cookie 和非第三方 Cookie 数据来衡量这两个实验组中基于转化的指标。
每次展示的收入 效果 效果 效果
标准错误 标准错误 标准错误
95% 置信区间 95% 置信区间 95% 置信区间
(添加您自己的指标)
(出价)表 2:

用于报告实验组和对照组指标的描述性统计信息的示例模板表格(取自第 20 页,但测试人员应考虑哪些指标最有意义 / 最可行,以便提供并视需要调整表格)

实验组
使用 ARA 和您使用的任何非第三方 Cookie 数据优化出价
对照组 1
使用第三方 Cookie 和您使用的任何非第三方 Cookie 数据优化出价
对照组 2
仅使用非第三方 Cookie 数据的出价优化
衡量方法 为避免多变量测试,请使用第三方 Cookie 和非第三方 Cookie 数据来衡量所有实验组中基于转化的指标。
每次展示的收入 平均值 平均值 平均值
标准差 标准差 标准差
第 25 和第 75 百分位 第 25 和第 75 百分位 第 25 和第 75 百分位
(添加您自己的指标)

目标 3 - 对聚合服务进行负载测试

请参阅汇总服务负载测试框架