Внешний источник данных – это источник данных, к которому можно обращаться непосредственно из BigQuery, даже если данные не хранятся в хранилище BigQuery. Например, у вас могут быть данные в другой базе данных Google Cloud, в файлах в Cloud Storage или в другом облачном продукте, которые вы хотели бы проанализировать в BigQuery, но не готовы к переносу.
Варианты использования внешних источников данных включают следующее:
- Для рабочих нагрузок «извлечение-загрузка-преобразование» (ELT) загрузка и очистка данных за один проход и запись очищенного результата в хранилище BigQuery с помощью запроса
CREATE TABLE ... AS SELECT
. - Объединение таблиц BigQuery с часто меняющимися данными из внешнего источника данных. Запрашивая внешний источник данных напрямую, вам не нужно перезагружать данные в хранилище BigQuery каждый раз, когда они изменяются.
Как клиент Ads Data Hub, вы можете использовать эту функцию BigQuery, чтобы легко получать собственные данные из других источников, таких как S3 и Azure, и присоединять их к рекламным данным Google в ваших запросах.
Полную информацию о подключении внешних источников данных к BigQuery можно найти в разделе Знакомство с внешними источниками данных .
Ограничения
- Поддерживаются следующие местоположения . Если ваши данные AWS или Azure находятся в неподдерживаемом регионе, вы также можете рассмотреть возможность использования службы передачи данных BigQuery .
- AWS — Восток США (Северная Вирджиния) (
aws-us-east-1
) - Лазурный — Восточная часть США 2 (
azure-eastus2
)
- AWS — Восток США (Северная Вирджиния) (
- Задания, которые выполняются на основе данных из подключений BigQuery:
- к ним применяются те же требования к агрегированию, что и к другим вакансиям в Ads Data Hub.
- должен соблюдать политику Google
Амазонка S3
Ниже приведен общий обзор шагов, необходимых для экспорта данных из Amazon S3 в BigQuery для использования в Ads Data Hub. Подробную информацию см. в разделе Подключение к Amazon S3 .
- Создайте политику AWS IAM для BigQuery. После создания политики имя ресурса Amazon (ARN) можно найти на странице сведений о политике .
- Создайте роль AWS IAM для BigQuery, используя политику, созданную на предыдущем шаге.
- Создайте соединение в BigQuery. Создайте соединение в проекте BigQuery, к которому имеет доступ Ads Data Hub, например в вашем административном проекте. Идентификатор BigQuery Google, который будет использоваться на следующем шаге, отображается на странице информации о подключении .
- Добавьте доверительные отношения к роли AWS. На странице AWS IAM отредактируйте роль, созданную на предыдущем шаге:
- Измените максимальную продолжительность сеанса до 12 часов.
- Добавьте политику доверия к роли AWS, используя идентификатор BigQuery Google, созданный на предыдущем шаге.
- Загрузите данные в набор данных BigQuery.
- Запросите данные в Ads Data Hub. Узнайте, как присоединиться к собственным данным .
- Необязательно: запланируйте непрерывную загрузку данных в BigQuery.
Хранилище BLOB-объектов Azure
Ниже приведен общий обзор шагов, необходимых для экспорта данных из хранилища BLOB-объектов Azure в BigQuery для использования в Ads Data Hub. Подробные сведения см. в разделе Подключение к хранилищу BLOB-объектов .
- Создайте приложение в своем клиенте Azure.
- Создайте соединение в BigQuery.
- Идентификатор клиента — это идентификатор каталога из предыдущего шага.
- Идентификатор федеративного приложения (клиента) — это идентификатор приложения (клиента) из предыдущего шага.
- На следующем этапе будет использоваться идентификатор BigQuery Google .
- Добавьте федеративные учетные данные в Azure.
- В качестве идентификатора субъекта используйте идентификатор Google BigQuery из предыдущего шага.
- Назначьте роль приложениям Azure BigQuery, предоставив доступ к считывателю данных Storage Blob.
- Загрузите данные в набор данных BigQuery.
- Запросите данные в Ads Data Hub. Узнайте, как присоединиться к собственным данным .
- Необязательно: запланируйте непрерывную загрузку данных в BigQuery.