外部数据源是可以直接从 BigQuery 查询的数据源,即使数据未存储在 BigQuery 存储空间中也是如此。例如,您想使用 BigQuery 分析的数据可能分布在其他 Google Cloud 数据库、Cloud Storage 中的文件或其他云产品,而且您未准备好迁移这些数据。
外部数据源的使用情形包括:
- 对于提取、加载和转换 (ELT) 工作负载,使用
CREATE TABLE ... AS SELECT
查询可一次性加载和清理数据,并将清理后的结果写入 BigQuery 存储空间。 - 将 BigQuery 表与外部数据源中频繁更改的数据相联接。通过直接查询外部数据源,您无需在每次数据发生更改时将其重新加载到 BigQuery 存储空间。
作为广告数据中心的客户,您可以利用这项 BigQuery 功能轻松导入来自其他来源(比如 S3 和 Azure)的第一方数据,并在查询中将这些数据与 Google 广告数据相联接。
如需全面了解如何将外部数据源连接到 BigQuery,请参阅外部数据源简介。
限制
- 系统支持以下位置:如果您的 AWS 或 Azure 数据位于不受支持的区域,您还可以考虑使用 BigQuery Data Transfer Service。
- AWS - 美国东部(北弗吉尼亚)(
aws-us-east-1
) - Azure - 美国东部 2 (
azure-eastus2
)
- AWS - 美国东部(北弗吉尼亚)(
- 针对来自 BigQuery 连接的数据运行的作业:
Amazon S3
下面简要介绍了将数据从 Amazon S3 导出到 BigQuery 以供在广告数据中心使用所需采取的步骤。有关详情,请参阅连接到 Amazon S3。
- 为 BigQuery 创建 AWS IAM 政策。创建政策后,您可以在政策详情页面中找到 Amazon 资源名称 (ARN)。
- 使用上一步中创建的政策为 BigQuery 创建 AWS IAM 角色。
- 在 BigQuery 中创建连接。在广告数据中心有权访问的 BigQuery 项目(例如您的管理项目)中创建连接。连接信息页面会显示 BigQuery Google 身份,您将在下一步中用到它。
- 向 AWS 角色添加信任关系。在 AWS IAM 页面中,修改您在上一步创建的角色:
- 将会话时长上限修改为 12 小时。
- 使用在上一步中创建的 BigQuery Google 身份为 AWS 角色添加信任政策。
- 将数据加载到 BigQuery 数据集内。
- 在广告数据中心查询数据。 了解如何联接第一方数据。
- (可选)在 BigQuery 中安排持续数据加载。
Azure Blob Storage
下面简要介绍了将数据从 Azure Blob Storage 导出到 BigQuery 以供在广告数据中心使用所需采取的步骤。有关详情,请参阅连接到 Blob Storage。
- 在 Azure 租户中创建应用。
- 在 BigQuery 中创建连接。
- 租户 ID 是上一步中的目录 ID。
- 联合应用(客户端)ID 是上一步中的应用(客户端)ID。
- BigQuery Google 身份会在下一步中用到。
- 在 Azure 中添加联合凭据。
- 对于主题标识符,请使用上一步中的 BigQuery Google 身份。
- 为 BigQuery 的 Azure 应用分配角色,从而授予 Storage Blob Data Reader 访问权限。
- 将数据加载到 BigQuery 数据集内。
- 在广告数据中心查询数据。 了解如何联接第一方数据。
- (可选)在 BigQuery 中安排持续数据加载。