Источник данных считается внешним, если его можно опрашивать напрямую из BigQuery. Данные при этом могут находиться не в хранилище BigQuery, а в другой базе данных Google Cloud, в Cloud Storage или в облачном продукте стороннего разработчика. Вы можете анализировать такие данные в BigQuery, не перенося их.
Примеры использования внешних источников данных:
- При извлечении, загрузке и преобразовании данных (ELT) можно загружать и очищать данные за один проход и записывать результат в хранилище BigQuery с помощью запроса
CREATE TABLE ... AS SELECT
. - Таблицы BigQuery можно объединить с часто меняющимися данными из внешнего источника данных. Это позволяет опрашивать его напрямую и не загружать повторно данные в хранилище BigQuery каждый раз, когда они меняются.
Вы используете Ads Data Hub, а значит можете с помощью внешних подключений к BigQuery легко получать собственные данные из других источников, например S3 или Azure, и объединять их с данными рекламы в Google в своих запросах.
Подробнее о подключении внешних источников данных к BigQuery…
Ограничения
- Поддерживаются указанные ниже местоположения. Если ваши данные AWS или Azure хранятся в регионе, который не поддерживается, попробуйте использовать сервис BigQuery Data Transfer.
- AWS – Восток США (Северная Виргиния) (
aws-us-east-1
); - Azure – Восточная часть США 2 (
azure-eastus2
).
- AWS – Восток США (Северная Виргиния) (
- Задания, выполняемые на основе данных из подключений к BigQuery, должны соответствовать:
- тем же требованиям к агрегированию, что предъявляются к другим заданиям в Ads Data Hub;
- правилам Google.
Amazon S3
Ниже приведена общая последовательность действий, необходимых для экспорта данных из Amazon S3 в BigQuery для использования в Ads Data Hub. Подробные сведения приведены в статье Подключение к Amazon S3.
- Создайте правила IAM AWS для BigQuery. На странице Сведения о правилах появится Amazon Resource Name (ARN).
- Создайте роль IAM AWS для BigQuery, используя правила, созданные на предыдущем шаге.
- Создайте подключение в BigQuery. Выберите для этого проект BigQuery, к которому у Ads Data Hub есть доступ, например ваш проект для администрирования. Идентификатор Google BigQuery, который будет использоваться на следующем шаге, можно найти на странице Сведения о подключении.
- Добавьте в роль AWS отношения доверия. На странице IAM AWS измените ранее созданную вами роль:
- Задайте максимальную длительность сеанса равной 12 часам.
- Добавьте правила доверия в роль AWS, используя идентификатор Google BigQuery, созданный на предыдущем шаге.
- Загрузите данные в набор данных BigQuery.
- Отправьте запрос к данным в Ads Data Hub. Подробнее об объединении собственных данных…
- Запланируйте непрерывную загрузку данных в BigQuery (необязательно).
Хранилище BLOB-объектов Azure
Ниже приведена общая последовательность действий, необходимых для экспорта данных из Хранилища BLOB-объектов Azure в BigQuery для использования в Ads Data Hub. Подробные сведения приведены в статье Подключение к Хранилищу BLOB-объектов.
- Создайте приложение в клиенте Azure.
- Создайте подключение в BigQuery.
- Tenant ID (Идентификатор клиента) – это идентификатор каталога из предыдущего шага.
- Federated Application (Client) ID (Идентификатор федеративного приложения (клиента)) – это идентификатор приложения (клиента) из предыдущего шага.
- BigQuery Google identity (Идентификатор Google BigQuery) будет использоваться на следующем шаге.
- Добавьте федеративные учетные данные в Azure.
- В качестве значения параметра Subject identifier (Идентификатор субъекта) используйте идентификатор Google BigQuery из предыдущего шага.
- Назначьте роль приложениям Azure BigQuery, предоставив доступ Storage Blob Data Reader (Читатель данных хранилища BLOB-объектов).
- Загрузите данные в набор данных BigQuery.
- Отправьте запрос к данным в Ads Data Hub. Подробнее об объединении собственных данных…
- Запланируйте непрерывную загрузку данных в BigQuery (необязательно).