Внешние подключения к BigQuery

Внешний источник данных – это источник данных, к которому можно обращаться непосредственно из BigQuery, даже если данные не хранятся в хранилище BigQuery. Например, у вас могут быть данные в другой базе данных Google Cloud, в файлах в Cloud Storage или в другом облачном продукте, которые вы хотели бы проанализировать в BigQuery, но не готовы к переносу.

Варианты использования внешних источников данных включают следующее:

  • Для рабочих нагрузок «извлечение-загрузка-преобразование» (ELT) загрузка и очистка данных за один проход и запись очищенного результата в хранилище BigQuery с помощью запроса CREATE TABLE ... AS SELECT .
  • Объединение таблиц BigQuery с часто меняющимися данными из внешнего источника данных. Запрашивая внешний источник данных напрямую, вам не нужно перезагружать данные в хранилище BigQuery каждый раз, когда они изменяются.

Как клиент Ads Data Hub, вы можете использовать эту функцию BigQuery, чтобы легко получать собственные данные из других источников, таких как S3 и Azure, и присоединять их к рекламным данным Google в ваших запросах.

Полную информацию о подключении внешних источников данных к BigQuery можно найти в разделе Знакомство с внешними источниками данных .

Ограничения

  • Поддерживаются следующие местоположения . Если ваши данные AWS или Azure находятся в неподдерживаемом регионе, вы также можете рассмотреть возможность использования службы передачи данных BigQuery .
    • AWS — Восток США (Северная Вирджиния) ( aws-us-east-1 )
    • Лазурный — Восточная часть США 2 ( azure-eastus2 )
  • Задания, которые выполняются на основе данных из подключений BigQuery:

Амазонка S3

Ниже приведен общий обзор шагов, необходимых для экспорта данных из Amazon S3 в BigQuery для использования в Ads Data Hub. Подробную информацию см. в разделе Подключение к Amazon S3 .

  1. Создайте политику AWS IAM для BigQuery. После создания политики имя ресурса Amazon (ARN) можно найти на странице сведений о политике .
  2. Создайте роль AWS IAM для BigQuery, используя политику, созданную на предыдущем шаге.
  3. Создайте соединение в BigQuery. Создайте соединение в проекте BigQuery, к которому имеет доступ Ads Data Hub, например в вашем административном проекте. Идентификатор BigQuery Google, который будет использоваться на следующем шаге, отображается на странице информации о подключении .
  4. Добавьте доверительные отношения к роли AWS. На странице AWS IAM отредактируйте роль, созданную на предыдущем шаге:
    1. Измените максимальную продолжительность сеанса до 12 часов.
    2. Добавьте политику доверия к роли AWS, используя идентификатор BigQuery Google, созданный на предыдущем шаге.
  5. Загрузите данные в набор данных BigQuery.
  6. Запросите данные в Ads Data Hub. Узнайте, как присоединиться к собственным данным .
  7. Необязательно: запланируйте непрерывную загрузку данных в BigQuery.

Хранилище BLOB-объектов Azure

Ниже приведен общий обзор шагов, необходимых для экспорта данных из хранилища BLOB-объектов Azure в BigQuery для использования в Ads Data Hub. Подробные сведения см. в разделе Подключение к хранилищу BLOB-объектов .

  1. Создайте приложение в своем клиенте Azure.
  2. Создайте соединение в BigQuery.
    • Идентификатор клиента — это идентификатор каталога из предыдущего шага.
    • Идентификатор федеративного приложения (клиента) — это идентификатор приложения (клиента) из предыдущего шага.
    • На следующем этапе будет использоваться идентификатор BigQuery Google .
  3. Добавьте федеративные учетные данные в Azure.
    • В качестве идентификатора субъекта используйте идентификатор Google BigQuery из предыдущего шага.
  4. Назначьте роль приложениям Azure BigQuery, предоставив доступ к считывателю данных Storage Blob.
  5. Загрузите данные в набор данных BigQuery.
  6. Запросите данные в Ads Data Hub. Узнайте, как присоединиться к собственным данным .
  7. Необязательно: запланируйте непрерывную загрузку данных в BigQuery.