关于 Search Console 批量数据导出的 BigQuery 效率提示

2023 年 6 月 5 日,星期一

借助 Search Console 的批量数据导出功能,您可以将网站的搜索效果数据导入到 BigQuery 中,从而增加存储空间并增强分析和报告功能。例如,导出数据后,您可以执行查询和网址聚类、分析长尾搜索查询,以及将搜索加入其他数据来源。您还可以根据需要自行指定数据的保留期限。

使用批量数据导出功能时,请务必在管理数据处理和存储费用方面做出明智的决策。在导出数据方面,Search Console 不会产生任何相关费用;但请务必阅读 BigQuery 价格,了解您需要支付的费用。在这篇博文中,我们将讨论各种技巧,帮助您充分利用新数据,而不会产生大量费用。

如果您尚未设置批量数据导出,请查看 Search Console 帮助中心内的分步指南。如需大致了解可通过导出功能获取的数据,请观看此处的嵌入式视频。

创建结算提醒和限制

在考虑费用时,不妨思考一下您愿意支出多少费用。在存储空间、分析和监控方面,此问题的回答可能有所不同。例如,您可能愿意支付一定金额来确保自己存储所有数据,但希望少花些费用来创建报告平台。有鉴于此,您可能需要针对搜索数据方面的投资,设置每月预算。

确定预算金额后,您可以创建 Google Cloud 预算提醒,以免您的账单出现意外费用。您还可以设置阈值规则,以便在即将达到预算金额时触发电子邮件通知。

Cloud 控制台的屏幕截图,其中显示了如何创建结算提醒

为了加强保护,您还可以限制查询作业结算的字节数。在这种情况下,系统会在执行查询前估算查询将读取的字节数。如果估算的字节数超过了限制,则查询会失败,但不会产生费用。

请勿直接根据原始数据构建信息中心

BigQuery 速度很快,并且倾向于将信息中心直接链接到 Search Console 导出的表。 但对于大型网站,此数据集会非常大(尤其是阶段性查询)。如果您构建的信息中心会重新计算每个视图的摘要信息,并在公司内分享,则这会很快产生大量的查询费用。

为避免这些费用,请考虑预先汇总每日下降的数据,并具体化一个或多个摘要表。然后,您的信息中心可以查询更小的时间序列表,从而降低处理费用。

检查 BigQuery 中的安排查询功能,或者如果需要更自动化的解决方案,请考虑使用 BI Engine

优化数据存储费用

默认情况下,当您开始批量导出数据时,数据将永久保留在 BigQuery 数据集中。但是,您可以更新默认分区到期时间,以便日期分区在一年或 16 个月后或您希望的任何时长后自动删除。

导出的数据可能对您很有价值,但可能非常庞大。运用您的业务知识,考虑保留足够长的时间,以便进行深入分析,但不会久至成为负担。一种方法是保留旧表的采样版本,同时保留最近日期的整个表。

优化您的 SQL 查询

在查询 Search Console 数据时,您应确保查询已针对性能进行了优化。如果您刚开始接触 BigQuery,请参阅帮助中心内的指南和示例查询。您可以尝试以下三种方法。

1. 限制输入扫描

首先,避免使用 SELECT *,这是成本最高的数据查询方法,BigQuery 会对表中的每一列进行全面扫描。应用 LIMIT 子句不会影响读取的数据量。

由于导出的表会按日期分区,因此您可以将输入扫描限制为仅关注某些天,尤其是在测试和根据数据进行不同尝试时。使用 WHERE 子句可以限制日期分区表中的日期范围,从而显著节省查询费用。例如,您可以使用以下子句只查看过去 14 天的数据:

WHERE data_date between DATE_SUB(CURRENT_DATE(), INTERVAL 14 day)

对于每个查询,您都需要尽快引入所有已知的过滤条件,以减少输入扫描。 例如,如果您要分析查询,则可能希望滤除匿名化查询行。 匿名化查询在表中会报告为长度为零的字符串。为此,您可以添加以下内容:

WHERE query != ''

2. 对数据进行采样

BigQuery 提供了表采样功能,可让您从大型 BigQuery 表查询随机数据子集。采样会返回各种记录,同时避免与扫描和处理整个表相关的成本,这在开发查询或不需要确切结果时尤其有用。

3. 如果不需要精确结果,请使用近似函数

BigQuery 支持许多近似聚合函数,这些函数可提供估算结果,但计算成本远低于对应的等效函数。例如,如果您想在特定条件下按展示次数查找热门网址,可以使用

SELECT APPROX_TOP_SUM(url, impressions, 10) WHERE datadate=...;

而不是

SELECT url, SUM(impressions) WHERE datadate=... GROUP BY url ORDER BY 2 DESC LIMIT 10;

资源

以下只是一些提示,便于您用于管理费用,如需了解详情,请参阅 BigQuery 费用优化最佳做法

和往常一样,如果您有任何问题或疑虑,请通过 Google 搜索中心社区Twitter 联系我们。