Conexiones externas de BigQuery

Una fuente de datos externa es una fuente de datos que puedes consultar directamente desde BigQuery, aunque los datos no estén almacenados en BigQuery. Por ejemplo, es posible que tengas datos en una base de datos diferente de Google Cloud, en archivos en Cloud Storage o en otro producto en la nube que desees analizar en BigQuery, pero no lo hagas. Prepárate para migrar.

Los casos de uso de fuentes de datos externas incluyen los siguientes:

  • Para las cargas de trabajo de ELT (extraer-cargar-transformar), carga y limpia los datos en un pase y escribe el resultado limpio en el almacenamiento de BigQuery mediante una consulta CREATE TABLE ... AS SELECT.
  • Unir tablas de BigQuery con datos que cambian con frecuencia desde una fuente de datos externa. Cuando consultas la fuente de datos externa directamente, no necesitas volver a cargar los datos en el almacenamiento de BigQuery cada vez que este cambia.

Como cliente del Centro de Datos de Anuncios, puedes aprovechar esta función de BigQuery para incorporar con facilidad datos de origen de otras fuentes, como S3 y Azure, y unirlos a los datos de publicidad de Google en tus consultas.

Para obtener detalles completos sobre cómo conectar fuentes de datos externas a BigQuery, consulta Introducción a las fuentes de datos externas.

Limitaciones

  • Se admiten las siguientes ubicaciones. Si tus datos de AWS o Azure se encuentran en una región no admitida, también puedes considerar usar el Servicio de transferencia de datos de BigQuery.
    • AWS - US East (N. Virginia (aws-us-east-1)
    • Azure, este de EE.UU. 2 (azure-eastus2)
  • Trabajos que se ejecutan en datos de conexiones de BigQuery:

Amazon S3

La siguiente es una descripción general de alto nivel de los pasos necesarios para exportar datos de Amazon S3 a BigQuery a fin de usarlos en el Centro de Datos de Anuncios. Consulta Conéctate a Amazon S3 para obtener todos los detalles.

  1. Crea una política de IAM de AWS para BigQuery. Después de crear la política, puedes encontrar el nombre de recurso de Amazon (ARN) en la página Detalles de la política.
  2. Crea una función de IAM de AWS para BigQuery con la política creada en el paso anterior.
  3. Crea una conexión en BigQuery. Crea una conexión en un proyecto de BigQuery al que el Centro de Datos de Anuncios tenga acceso, por ejemplo, tu proyecto de administrador. La identidad de Google en BigQuery, que se usará en el siguiente paso, se muestra en la página Información de la conexión.
  4. Agrega una relación de confianza a la función de AWS. En la página IAM de AWS, edita la función creada en el paso anterior:
    1. Modifica la duración máxima de la sesión a 12 horas.
    2. Agrega una política de confianza a la función de AWS con la identidad de Google de BigQuery creada en el paso anterior.
  5. Carga datos en el conjunto de datos de BigQuery.
  6. Consulta los datos en el Centro de Datos de Anuncios. Obtén más información sobre cómo unir datos de origen.
  7. Opcional: Programa una carga de datos continua en BigQuery.

Azure Blob Storage

La siguiente es una descripción general de alto nivel de los pasos necesarios para exportar datos de Azure Blob Storage a BigQuery y usarlos en el Centro de Datos de Anuncios. Consulta Conéctate al almacenamiento de BLOB para obtener todos los detalles.

  1. Crea una aplicación en tu usuario de Azure.
  2. Crea una conexión en BigQuery.
    • ID de usuario es el ID del directorio del paso anterior.
    • ID de aplicación federada (cliente) es el ID de aplicación (cliente) del paso anterior.
    • En el paso siguiente, usarás la identidad de Google para BigQuery.
  3. Agrega una credencial federada en Azure.
    • Para el Identificador de asunto, usa la identidad de Google de BigQuery del paso anterior.
  4. Asigna una función a las aplicaciones de Azure de BigQuery y otorga acceso de lector de datos de BLOB de Storage.
  5. Carga datos en el conjunto de datos de BigQuery.
  6. Consulta los datos en el Centro de Datos de Anuncios. Obtén más información sobre cómo unir datos de origen.
  7. Opcional: Programa una carga de datos continua en BigQuery.