Externí připojení k BigQuery

Externí zdroj dat je takový, kterého se můžete dotazovat přímo z BigQuery, přestože data nejsou uložena v úložišti BigQuery. Například byste mohli mít data v jiné databázi Google Cloud, v souborech v Cloud Storage, případně v úplně jiném cloudovém produktu a tato data byste chtěli analyzovat v BigQuery, ale nejste připraveni k migraci.

Mezi případy použití externích zdrojů dat patří:

  • U zátěží typu ELT (extract-load-transform) načtení a vyčištění dat v jednom průchodu a zapsání vyčištěného výsledku do úložiště BigQuery pomocí dotazu typu CREATE TABLE ... AS SELECT.
  • Spojení tabulek BigQuery s často se měnícími daty z externího zdroje dat. Díky přímému dotazování externího zdroje dat nemusíte data při každé jejich změně do úložiště BigQuery znovu načítat.

Jako zákazník služby Ads Data Hub můžete tuto funkci BigQuery využít ke snadnému získávání dat první strany z jiných zdrojů, například S3 nebo Azure, a jejich spojování s reklamními daty Google v dotazech.

Podrobné informace o připojování externích zdrojů dat k BigQuery najdete v úvodu do externích zdrojů dat.

Omezení

  • Podporovány jsou tyto lokality. Pokud se vaše data na AWS nebo Azure nacházejí v nepodporované oblasti, můžete také použít službu BigQuery Data Transfer Service.
    • AWS – východ USA (Severní Virginie) (aws-us-east-1)
    • Azure – východ USA 2 (azure-eastus2)
  • Úlohy, které se spouštějí na datech z připojení k BigQuery:

Amazon S3

Následuje stručný přehled kroků potřebných k exportu dat z Amazon S3 do BigQuery pro účely použití v Ads Data Hub. Veškeré podrobnosti najdete v článku o připojení k Amazon S3.

  1. Vytvořte pro BigQuery zásady IAM pro AWS. Po jejich vytvoření lze na stránce Policy details najít ARN (Amazon Resource Name).
  2. Vytvořte pro BigQuery roli IAM pro AWS pomocí zásad vytvořených v předchozím kroku.
  3. Vytvořte v BigQuery připojení. Vytvořte připojení v projektu BigQuery, ke kterému má Ads Data Hub přístup, například v administrátorském projektu. Identita BigQuery Google, která bude použita v dalším kroku, je uvedena na stránce Connection info.
  4. Přidejte k roli AWS vztah důvěryhodnosti. Na stránce AWS IAM upravte roli vytvořenou v předchozím kroku:
    1. Změňte maximální dobu trvání relace na 12 hodin.
    2. Pomocí identity BigQuery Google vytvořené v předchozím kroku přidejte k roli AWS zásady důvěryhodnosti.
  5. Načtěte data do souboru dat BigQuery.
  6. Dotažte se na data v Ads Data Hub. Přečtěte si o připojování dat první strany.
  7. Můžete (ale nemusíte) také naplánovat průběžné načítání dat do BigQuery.

Azure Blob Storage

Následuje stručný přehled kroků potřebných k exportu dat z Azure Blob Storage do BigQuery pro účely použití v Ads Data Hub. Veškeré podrobnosti najdete v článku o připojování k úložišti objektů blob.

  1. Vytvořte ve svém tenantu Azure nějakou aplikaci.
  2. Vytvořte v BigQuery připojení.
    • Tenant ID je ID adresáře z předchozího kroku.
    • Federated Application (Client) ID je ID aplikace (klientu) z předchozího kroku.
    • BigQuery Google identity se použije v dalším kroku.
  3. Přidejte v Azure federovaný certifikát.
    • Jako Subject identifier použijte hodnotu BigQuery Google identity z předchozího kroku.
  4. Přiřaďte aplikacím Azure v BigQuery roli, která jim udělí přístupové oprávnění ke čtení dat objektů blob v úložišti.
  5. Načtěte data do souboru dat BigQuery.
  6. Dotažte se na data v Ads Data Hub. Přečtěte si o připojování dat první strany.
  7. Můžete (ale nemusíte) také naplánovat průběžné načítání dat do BigQuery.