BigQuery 外部连接

外部数据源是可以直接从 BigQuery 查询的数据源,即使数据未存储在 BigQuery 存储空间中也是如此。例如,您想使用 BigQuery 分析的数据可能分布在其他 Google Cloud 数据库、Cloud Storage 中的文件或其他云产品,而且您未准备好迁移这些数据。

外部数据源的使用情形包括:

  • 对于提取、加载和转换 (ELT) 工作负载,使用 CREATE TABLE ... AS SELECT 查询可一次性加载和清理数据,并将清理后的结果写入 BigQuery 存储空间。
  • 将 BigQuery 表与外部数据源中频繁更改的数据相联接。通过直接查询外部数据源,您无需在每次数据发生更改时将其重新加载到 BigQuery 存储空间。

作为广告数据中心的客户,您可以利用这项 BigQuery 功能轻松导入来自其他来源(比如 S3 和 Azure)的第一方数据,并在查询中将这些数据与 Google 广告数据相联接。

如需全面了解如何将外部数据源连接到 BigQuery,请参阅外部数据源简介

限制

  • 系统支持以下位置:如果您的 AWS 或 Azure 数据位于不受支持的区域,您还可以考虑使用 BigQuery Data Transfer Service
    • AWS - 美国东部(北弗吉尼亚)(aws-us-east-1)
    • Azure - 美国东部 2 (azure-eastus2)
  • 针对来自 BigQuery 连接的数据运行的作业:
    • 需要遵守与广告数据中心内其他作业相同的汇总要求
    • 必须遵守 Google 的政策

Amazon S3

下面简要介绍了将数据从 Amazon S3 导出到 BigQuery 以供在广告数据中心使用所需采取的步骤。有关详情,请参阅连接到 Amazon S3

  1. 为 BigQuery 创建 AWS IAM 政策。创建政策后,您可以在政策详情页面中找到 Amazon 资源名称 (ARN)。
  2. 使用上一步中创建的政策为 BigQuery 创建 AWS IAM 角色。
  3. 在 BigQuery 中创建连接。在广告数据中心有权访问的 BigQuery 项目(例如您的管理项目)中创建连接。连接信息页面会显示 BigQuery Google 身份,您将在下一步中用到它。
  4. 向 AWS 角色添加信任关系。在 AWS IAM 页面中,修改您在上一步创建的角色:
    1. 将会话时长上限修改为 12 小时。
    2. 使用在上一步中创建的 BigQuery Google 身份为 AWS 角色添加信任政策。
  5. 数据加载到 BigQuery 数据集内。
  6. 在广告数据中心查询数据。 了解如何联接第一方数据
  7. (可选)在 BigQuery 中安排持续数据加载。

Azure Blob Storage

下面简要介绍了将数据从 Azure Blob Storage 导出到 BigQuery 以供在广告数据中心使用所需采取的步骤。有关详情,请参阅连接到 Blob Storage

  1. 在 Azure 租户中创建应用。
  2. 在 BigQuery 中创建连接。
    • 租户 ID 是上一步中的目录 ID。
    • 联合应用(客户端)ID 是上一步中的应用(客户端)ID。
    • BigQuery Google 身份会在下一步中用到。
  3. 在 Azure 中添加联合凭据。
    • 对于主题标识符,请使用上一步中的 BigQuery Google 身份。
  4. 为 BigQuery 的 Azure 应用分配角色,从而授予 Storage Blob Data Reader 访问权限。
  5. 数据加载到 BigQuery 数据集内。
  6. 在广告数据中心查询数据。 了解如何联接第一方数据
  7. (可选)在 BigQuery 中安排持续数据加载。