Внешние подключения к BigQuery

Источник данных считается внешним, если его можно опрашивать напрямую из BigQuery. Данные при этом могут находиться не в хранилище BigQuery, а в другой базе данных Google Cloud, в Cloud Storage или в облачном продукте стороннего разработчика. Вы можете анализировать такие данные в BigQuery, не перенося их.

Примеры использования внешних источников данных:

  • При извлечении, загрузке и преобразовании данных (ELT) можно загружать и очищать данные за один проход и записывать результат в хранилище BigQuery с помощью запроса CREATE TABLE ... AS SELECT.
  • Таблицы BigQuery можно объединить с часто меняющимися данными из внешнего источника данных. Это позволяет опрашивать его напрямую и не загружать повторно данные в хранилище BigQuery каждый раз, когда они меняются.

Вы используете Ads Data Hub, а значит можете с помощью внешних подключений к BigQuery легко получать собственные данные из других источников, например S3 или Azure, и объединять их с данными рекламы в Google в своих запросах.

Подробнее о подключении внешних источников данных к BigQuery

Ограничения

  • Поддерживаются указанные ниже местоположения. Если ваши данные AWS или Azure хранятся в регионе, который не поддерживается, попробуйте использовать сервис BigQuery Data Transfer.
    • AWS – Восток США (Северная Виргиния) (aws-us-east-1);
    • Azure – Восточная часть США 2 (azure-eastus2).
  • Задания, выполняемые на основе данных из подключений к BigQuery, должны соответствовать:

Amazon S3

Ниже приведена общая последовательность действий, необходимых для экспорта данных из Amazon S3 в BigQuery для использования в Ads Data Hub. Подробные сведения приведены в статье Подключение к Amazon S3.

  1. Создайте правила IAM AWS для BigQuery. На странице Сведения о правилах появится Amazon Resource Name (ARN).
  2. Создайте роль IAM AWS для BigQuery, используя правила, созданные на предыдущем шаге.
  3. Создайте подключение в BigQuery. Выберите для этого проект BigQuery, к которому у Ads Data Hub есть доступ, например ваш проект для администрирования. Идентификатор Google BigQuery, который будет использоваться на следующем шаге, можно найти на странице Сведения о подключении.
  4. Добавьте в роль AWS отношения доверия. На странице IAM AWS измените ранее созданную вами роль:
    1. Задайте максимальную длительность сеанса равной 12 часам.
    2. Добавьте правила доверия в роль AWS, используя идентификатор Google BigQuery, созданный на предыдущем шаге.
  5. Загрузите данные в набор данных BigQuery.
  6. Отправьте запрос к данным в Ads Data Hub. Подробнее об объединении собственных данных
  7. Запланируйте непрерывную загрузку данных в BigQuery (необязательно).

Хранилище BLOB-объектов Azure

Ниже приведена общая последовательность действий, необходимых для экспорта данных из Хранилища BLOB-объектов Azure в BigQuery для использования в Ads Data Hub. Подробные сведения приведены в статье Подключение к Хранилищу BLOB-объектов.

  1. Создайте приложение в клиенте Azure.
  2. Создайте подключение в BigQuery.
    • Tenant ID (Идентификатор клиента) – это идентификатор каталога из предыдущего шага.
    • Federated Application (Client) ID (Идентификатор федеративного приложения (клиента)) – это идентификатор приложения (клиента) из предыдущего шага.
    • BigQuery Google identity (Идентификатор Google BigQuery) будет использоваться на следующем шаге.
  3. Добавьте федеративные учетные данные в Azure.
    • В качестве значения параметра Subject identifier (Идентификатор субъекта) используйте идентификатор Google BigQuery из предыдущего шага.
  4. Назначьте роль приложениям Azure BigQuery, предоставив доступ Storage Blob Data Reader (Читатель данных хранилища BLOB-объектов).
  5. Загрузите данные в набор данных BigQuery.
  6. Отправьте запрос к данным в Ads Data Hub. Подробнее об объединении собственных данных
  7. Запланируйте непрерывную загрузку данных в BigQuery (необязательно).