Внешний источник данных – это источник данных, к которому можно обращаться непосредственно из BigQuery, даже если данные не хранятся в хранилище BigQuery. Например, у вас могут быть данные в другой базе данных Google Cloud, в файлах в Cloud Storage или в другом облачном продукте, которые вы хотели бы проанализировать в BigQuery, но не готовы к переносу.
Варианты использования внешних источников данных включают следующее:
- Для рабочих нагрузок «извлечение-загрузка-преобразование» (ELT) загрузка и очистка данных за один проход и запись очищенного результата в хранилище BigQuery с помощью запроса
CREATE TABLE ... AS SELECT
. - Объединение таблиц BigQuery с часто меняющимися данными из внешнего источника данных. Запрашивая внешний источник данных напрямую, вам не нужно перезагружать данные в хранилище BigQuery каждый раз, когда они изменяются.
Как клиент Ads Data Hub for Marketers, вы можете использовать эту функцию BigQuery, чтобы легко получать собственные данные из других источников, таких как S3 и Azure, и присоединять их к рекламным данным Google в ваших запросах.
Полную информацию о подключении внешних источников данных к BigQuery можно найти в разделе Знакомство с внешними источниками данных .
Ограничения
- Поддерживаются следующие местоположения . Если ваши данные AWS или Azure находятся в неподдерживаемом регионе, вы также можете рассмотреть возможность использования службы передачи данных BigQuery .
- AWS — Восток США (Северная Вирджиния) (
aws-us-east-1
) - Лазурный — Восточная часть США 2 (
azure-eastus2
)
- AWS — Восток США (Северная Вирджиния) (
- Задания, которые выполняются на основе данных из подключений BigQuery:
- к ним применяются те же требования к агрегированию, что и к другим вакансиям в Ads Data Hub.
- должен соблюдать правила Google
Амазонка S3
Ниже приведен общий обзор шагов, необходимых для экспорта данных из Amazon S3 в BigQuery для использования в Ads Data Hub. Подробную информацию см. в разделе Подключение к Amazon S3 .
- Создайте политику AWS IAM для BigQuery. После создания политики имя ресурса Amazon (ARN) можно найти на странице сведений о политике .
- Создайте роль AWS IAM для BigQuery, используя политику, созданную на предыдущем шаге.
- Создайте соединение в BigQuery. Создайте соединение в проекте BigQuery, к которому имеет доступ Ads Data Hub, например в вашем административном проекте. Идентификатор Google BigQuery, который будет использоваться на следующем шаге, отображается на странице информации о подключении .
- Добавьте доверительные отношения к роли AWS. На странице AWS IAM отредактируйте роль, созданную на предыдущем шаге:
- Измените максимальную продолжительность сеанса до 12 часов.
- Добавьте политику доверия к роли AWS, используя идентификатор BigQuery Google, созданный на предыдущем шаге.
- Загрузите данные в набор данных BigQuery.
- Запросите данные в Ads Data Hub. Узнайте, как присоединиться к собственным данным .
- Необязательно: запланируйте непрерывную загрузку данных в BigQuery.
Хранилище BLOB-объектов Azure
Ниже приведен общий обзор шагов, необходимых для экспорта данных из хранилища BLOB-объектов Azure в BigQuery для использования в Ads Data Hub. Подробные сведения см. в разделе Подключение к хранилищу BLOB-объектов .
- Создайте приложение в своем клиенте Azure.
- Создайте соединение в BigQuery.
- Идентификатор клиента — это идентификатор каталога из предыдущего шага.
- Идентификатор федеративного приложения (клиента) — это идентификатор приложения (клиента) из предыдущего шага.
- На следующем этапе будет использоваться идентификатор BigQuery Google .
- Добавьте федеративные учетные данные в Azure.
- В качестве идентификатора субъекта используйте идентификатор Google BigQuery из предыдущего шага.
- Назначьте роль приложениям Azure BigQuery, предоставив доступ к считывателю данных Storage Blob.
- Загрузите данные в набор данных BigQuery.
- Запросите данные в Ads Data Hub. Узнайте, как присоединиться к собственным данным .
- Необязательно: запланируйте непрерывную загрузку данных в BigQuery.