Una fuente de datos externa es una fuente de datos que puedes consultar directamente desde BigQuery, aunque los datos no estén almacenados en BigQuery. Por ejemplo, es posible que tengas datos en una base de datos diferente de Google Cloud, en archivos en Cloud Storage o en algún otro producto en la nube que desees analizar en BigQuery pero que aún no quieres migrar.
Los casos de uso de fuentes de datos externas incluyen los siguientes:
- Para las cargas de trabajo de ELT (extraer-cargar-transformar), carga y limpia los datos en un pase y escribe el resultado limpio en el almacenamiento de BigQuery mediante una consulta
CREATE TABLE ... AS SELECT
. - Unir tablas de BigQuery con datos que cambian con frecuencia desde una fuente de datos externa. Cuando consultas la fuente de datos externa directamente, no necesitas volver a cargar los datos en el almacenamiento de BigQuery cada vez que este cambia.
Como cliente del Centro de Datos de Anuncios, puedes aprovechar esta función de BigQuery para importar fácilmente datos de origen de otras fuentes, como S3 y Azure, y unirlos a los datos publicitarios de Google en tus consultas.
Para obtener detalles completos sobre cómo conectar fuentes de datos externas a BigQuery, consulta Introducción a las fuentes de datos externas.
Limitaciones
- Se admiten las siguientes ubicaciones. Si tus datos de AWS o Azure se encuentran en una región no admitida, también puedes usar el Servicio de transferencia de datos de BigQuery.
- AWS - US East (N. Virginia) (
aws-us-east-1
) - Azure - East US 2 (
azure-eastus2
)
- AWS - US East (N. Virginia) (
- Tareas que se ejecutan en datos de conexiones de BigQuery:
- están sujetos a los mismos requisitos de agregación que otros trabajos en el CDA
- deben cumplir con las políticas de Google.
Amazon S3
A continuación, se proporciona un resumen con la información más importante de los pasos necesarios para exportar datos de Amazon S3 a BigQuery para usarlos en el Centro de datos de Google Ads. Consulta Conéctate a Amazon S3 para obtener todos los detalles.
- Crea una política de IAM de AWS para BigQuery. Después de crear la política, el nombre de recursos de Amazon (ARN) se puede encontrar en la página Detalles de la política.
- Crea un rol de IAM de AWS para BigQuery con la política que creaste en el paso anterior.
- Crea una conexión en BigQuery. Crea una conexión en un proyecto de BigQuery al que Ads Data Hub tenga acceso, por ejemplo, tu proyecto de administrador. La identidad de Google de BigQuery, que se usará en el siguiente paso, se muestra en la página Información de conexión.
- Agrega una relación de confianza al rol de AWS. En la página IAM de AWS, edita el rol que creaste en el paso anterior:
- Modifica la duración máxima de la sesión a 12 horas.
- Agrega una política de confianza al rol de AWS con la identidad de Google de BigQuery que creaste en el paso anterior.
- Carga datos en el conjunto de datos de BigQuery.
- Consulta los datos en el Centro de Datos de Anuncios. Obtén información para combinar datos de origen.
- Opcional: Programa la carga continua de datos en BigQuery.
Azure Blob Storage
A continuación, se incluye una descripción general de los pasos necesarios para exportar datos de Azure Blob Storage a BigQuery para usarlos en el Administrador de datos de anuncios. Consulta Conéctate a Blob Storage para obtener todos los detalles.
- Crea una aplicación en tu instancia de Azure.
- Crea una conexión en BigQuery.
- ID de inquilino es el ID del directorio del paso anterior.
- El ID de app federada (cliente) es el ID de app (cliente) del paso anterior.
- La identidad de Google en BigQuery se usará en el siguiente paso.
- Agrega una credencial federada en Azure.
- En Identificador de asunto, usa la identidad de Google de BigQuery del paso anterior.
- Asigna un rol a las aplicaciones de Azure de BigQuery y otorga acceso de lector de datos de almacenamiento en objetos blob.
- Carga datos en el conjunto de datos de BigQuery.
- Consulta los datos en el Centro de Datos de Anuncios. Obtén información para combinar datos de origen.
- Opcional: Programa la carga continua de datos en BigQuery.