外部データソースは、データが BigQuery ストレージに格納されていない場合でも、BigQuery から直接クエリできるデータソースです。たとえば、別の Google Cloud データベース、Cloud Storage のファイル、または別のクラウド プロダクトにまとめてデータを保管していて、BigQuery で分析を行うものの、移行の準備はできていない場合があります。
外部データソースのユースケースには以下が含まれます。
- 抽出、読み込み、変換(ELT)ワークロードの場合、
CREATE TABLE ... AS SELECT
クエリを使用して、1 つのパスでデータの読み込みとクリーニングを実行し、クリーンアップした結果を BigQuery ストレージに書き込みます。 - 外部データソースから、頻繁に変化するデータと BigQuery テーブルを結合します。外部データソースに対して直接クエリを実行すると、変更されるたびにデータを BigQuery ストレージに再読み込みする必要がなくなります。
Ads Data Hub を利用するお客様は、この BigQuery の機能を利用して、他のソース(S3 や Azure など)からファーストパーティ データを取り込み、お客様のクエリ内の Google の広告データと結合できます。
外部データソースと BigQuery の接続に関する詳細は、外部データソースの概要でご確認ください。
制限事項
- 次の地域がサポートされています。AWS または Azure データの地域がサポート対象外の場合は、BigQuery Data Transfer Service を利用することもできます。
- AWS - US East(北バージニア)(
aws-us-east-1
) - Azure - East US 2(
azure-eastus2
)
- AWS - US East(北バージニア)(
- BigQuery と接続して取得したデータに対して実行できるジョブの条件は、次のとおりです。
Amazon S3
Ads Data Hub で利用するデータを Amazon S3 から BigQuery にエクスポートする手順の概要は次のとおりです。詳しい手順は、Amazon S3 に接続するでご確認ください。
- BigQuery の AWS IAM ポリシーを作成します。ポリシーが作成されると、Amazon Resource Name(ARN)を [ポリシーの詳細] ページで確認できるようになります。
- 前の手順で作成したポリシーを使って、BigQuery の AWS IAM ロールを作成します。
- BigQuery で接続を作成します。Ads Data Hub がアクセスできる BigQuery プロジェクト(管理者プロジェクトなど)で作成してください。次の手順で使用する BigQuery Google ID は [接続情報] ページで確認できます。
- 信頼関係を AWS ロールに追加します。[AWS IAM] ページで、先の手順で作成したロールを編集します。編集内容は次のとおりです。
- 最大セッション継続時間を 12 時間に変更します。
- 前の手順で作成した BigQuery Google ID を使って、信頼ポリシーを AWS ロールに追加します。
- BigQuery データセットにデータを読み込みます。
- Ads Data Hub でデータをクエリします。 詳しくは、自社データを結合するをご覧ください。
- 省略可: BigQuery で、継続的なデータ読み込みをスケジュール設定します。
Azure Blob Storage
Ads Data Hub で利用するデータを Azure Blob Storage から BigQuery にエクスポートする手順の概要は次のとおりです。詳しい手順は、Blob Storage に接続するでご確認ください。
- Azure テナントでアプリケーションを作成します。
- BigQuery で接続を作成します。
- テナント ID は、前の手順で示したディレクトリ ID です。
- 連携アプリケーション(クライアント)ID は、前の手順で示したアプリケーション(クライアント)ID です。
- BigQuery Google ID は次の手順で使用します。
- Azure の連携認証情報を追加します。
- サブジェクト識別子として、前の手順で取得した BigQuery Google ID を使用します。
- BigQuery の Azure アプリケーションにロールを割り当てます。これにより、Storage Blob DataReader のアクセスを許可できます。
- BigQuery データセットにデータを読み込みます。
- Ads Data Hub でデータをクエリします。 詳しくは、自社データを結合するをご覧ください。
- 省略可: BigQuery で、継続的なデータ読み込みをスケジュール設定します。