Las fuentes de datos externas se pueden consultar directamente desde BigQuery, aunque los datos no estén almacenados ahí. Por ejemplo, puedes tener datos en una base de datos de Google Cloud diferente, en archivos de Cloud Storage o en cualquier otro producto de la nube que quieras analizar en BigQuery, pero que no vayas a migrar.
Las fuentes de datos externas pueden tener varios usos, como los siguientes:
- En cargas de trabajo de extracción-carga-transformación (ELT), para cargar y limpiar tus datos de una sola vez y escribir el resultado limpio en el almacenamiento de BigQuery mediante una consulta
CREATE TABLE ... AS SELECT
. - Para unir tablas de BigQuery y datos que cambian con frecuencia desde una fuente de datos externa. Si envías consultas directamente a la fuente de datos externa, no es necesario volver a cargar los datos en el almacenamiento de BigQuery cada vez que cambie.
Como cliente del Centro de Datos de Anuncios, puedes usar esta función de BigQuery para incorporar fácilmente datos propios de otras fuentes, como S3 y Azure, y unirlos con datos publicitarios de Google en tus consultas.
Para obtener información detallada sobre cómo conectar fuentes de datos externas a BigQuery, consulta la introducción a fuentes de datos externas.
Limitaciones
- Se admiten las siguientes ubicaciones. Si tus datos de AWS o Azure están en una región no admitida, puedes usar BigQuery Data Transfer Service.
- AWS: Este de EE. UU. (Norte de Virginia) (
aws-us-east-1
) - Azure: Este de EE. UU. 2 (
azure-eastus2
)
- AWS: Este de EE. UU. (Norte de Virginia) (
- Las tareas que se ejecutan a partir de datos de conexiones de BigQuery:
- están sujetas a los mismos requisitos de agregación que otras tareas del Centro de Datos de Anuncios
- deben cumplir las políticas de Google
Amazon S3
A continuación, se ofrece un resumen de los pasos necesarios para exportar datos de Amazon S3 a BigQuery para usarlos en el Centro de Datos de Anuncios. Para obtener más información, consulta el artículo sobre cómo conectarse a Amazon S3.
- Crea una política de gestión de identidades y accesos de AWS para BigQuery. Después de crearla, puedes consultar el nombre de recurso de Amazon (ARN) en la página Detalles de la política.
- Crea un rol de gestión de identidades y accesos de AWS para BigQuery usando la política creada en el paso anterior.
- Crea una conexión en un proyecto de BigQuery al que tenga acceso el Centro de Datos de Anuncios (por ejemplo, tu proyecto de administrador). La identidad de Google de BigQuery, que se usará en el siguiente paso, se mostrará en la página Información sobre la conexión.
- Añade una relación de confianza al rol de AWS. En la página de gestión de identidades y accesos de AWS, edita el rol creado en el paso anterior:
- Modifica la duración máxima de la sesión a 12 horas.
- Añade una política de confianza al rol de AWS con la identidad de Google de BigQuery que has creado en el paso anterior.
- Carga los datos en el conjunto de datos de BigQuery.
- Consulta los datos en el Centro de Datos de Anuncios. Consulta cómo unir datos propios.
- Opcional: Programa la carga continua de datos en BigQuery.
Azure Blob Storage
A continuación, se incluye un resumen de los pasos necesarios para exportar datos de Azure Blob Storage a BigQuery y usarlos en el Centro de Datos de Anuncios. Para obtener más información, consulta cómo conectarte a Blob Storage.
- Crea una aplicación en tu cliente de Azure.
- Crea una conexión en BigQuery.
- El ID de cliente es el ID del directorio del paso anterior.
- El ID (de cliente) de aplicación federada es el ID (de cliente) de la aplicación del paso anterior.
- En el siguiente paso se usará la identidad de Google de BigQuery.
- Añade una credencial federada en Azure.
- En Identificador del asunto, usa la identidad de Google de BigQuery del paso anterior.
- Asigna un rol a las aplicaciones Azure de BigQuery para conceder acceso a los lectores de datos de blobs de almacenamiento.
- Carga los datos en el conjunto de datos de BigQuery.
- Consulta los datos en el Centro de Datos de Anuncios. Consulta cómo unir datos propios.
- Opcional: Programa la carga continua de datos en BigQuery.