Nguồn dữ liệu bên ngoài là nguồn dữ liệu mà bạn có thể truy vấn trực tiếp từ BigQuery, mặc dù dữ liệu đó không được lưu trữ trong bộ nhớ BigQuery. Ví dụ: có thể bạn có dữ liệu trong một cơ sở dữ liệu khác của Google Cloud, trong các tệp trong Cloud Storage hoặc trong một sản phẩm đám mây khác mà bạn muốn phân tích trong BigQuery, nhưng bạn chưa chuẩn bị di chuyển.
Các trường hợp sử dụng nguồn dữ liệu bên ngoài bao gồm:
- Đối với tải công việc trích xuất-tải-chuyển đổi (ELT), hãy tải và dọn dẹp dữ liệu trong một lần và ghi kết quả đã được làm sạch vào bộ nhớ BigQuery bằng cách sử dụng truy vấn
CREATE TABLE ... AS SELECT
. - Tham gia các bảng BigQuery có dữ liệu thay đổi thường xuyên từ một nguồn dữ liệu bên ngoài. Bằng cách truy vấn trực tiếp nguồn dữ liệu bên ngoài, bạn không cần tải lại dữ liệu vào bộ nhớ BigQuery mỗi khi thay đổi.
Là khách hàng của Ads Data Hub, bạn có thể tận dụng tính năng này của BigQuery để dễ dàng lấy dữ liệu của bên thứ nhất từ các nguồn khác (chẳng hạn như S3 và Azure) và kết hợp dữ liệu đó với dữ liệu quảng cáo trên Google trong các truy vấn của bạn.
Để biết thông tin đầy đủ về cách kết nối các nguồn dữ liệu bên ngoài với BigQuery, hãy xem phần Giới thiệu về các nguồn dữ liệu bên ngoài.
Các điểm hạn chế
- Các vị trí sau được hỗ trợ. Nếu dữ liệu AWS hoặc Azure của bạn nằm ở khu vực không được hỗ trợ, bạn cũng có thể cân nhắc sử dụng Dịch vụ chuyển dữ liệu của BigQuery.
- AWS – Miền Đông Hoa Kỳ (N. Virginia) (
aws-us-east-1
) - Azure – Đông Hoa Kỳ 2 (
azure-eastus2
)
- AWS – Miền Đông Hoa Kỳ (N. Virginia) (
- Các công việc chạy trên dữ liệu từ các kết nối BigQuery:
- phải tuân theo các yêu cầu tổng hợp giống như các công việc khác trong Ads Data Hub
- phải tuân thủ các chính sách của Google
Amazon S3
Dưới đây là thông tin tổng quan cấp cao về các bước cần thiết để xuất dữ liệu từ Amazon S3 sang BigQuery để sử dụng trong Ads Data Hub. Hãy tham khảo bài viết Kết nối với Amazon S3 để biết toàn bộ thông tin chi tiết.
- Tạo chính sách IAM của AWS cho BigQuery. Sau khi tạo chính sách, bạn có thể tìm thấy Amazon Resource Name (ARN) – Tên tài nguyên của Amazon (ARN) trên trang Policy details (Thông tin chi tiết về chính sách).
- Tạo vai trò IAM của AWS cho BigQuery bằng chính sách đã tạo ở bước trước.
- Tạo kết nối trong BigQuery. Tạo kết nối trong dự án BigQuery mà Ads Data Hub có quyền truy cập (ví dụ: dự án quản trị). Danh tính của Google BigQuery sẽ được sử dụng trong bước tiếp theo, được hiển thị trên trang Thông tin kết nối.
- Thêm mối quan hệ tin cậy vào vai trò AWS. Trên trang AWS IAM, hãy chỉnh sửa vai trò đã tạo ở bước trước:
- Sửa đổi thời lượng phiên tối đa thành 12 giờ.
- Thêm chính sách tin cậy vào vai trò AWS bằng cách sử dụng danh tính Google trong BigQuery đã tạo ở bước trước.
- Tải dữ liệu vào tập dữ liệu BigQuery.
- Truy vấn dữ liệu trong Ads Data Hub. Tìm hiểu về việc tham gia dữ liệu của bên thứ nhất.
- Không bắt buộc: Lên lịch tải dữ liệu liên tục trong BigQuery.
Bộ nhớ Azure Blob
Sau đây là thông tin tổng quan cấp cao về các bước cần thiết để xuất dữ liệu từ Azure Blob Storage sang BigQuery để sử dụng trong Ads Data Hub. Hãy tham khảo bài viết Kết nối với Blob Storage để biết toàn bộ thông tin chi tiết.
- Tạo một đơn đăng ký trong đối tượng thuê Azure.
- Tạo kết nối trong BigQuery.
- Mã người thuê là mã thư mục từ bước trước.
- Mã ứng dụng (Client) liên kết là Mã ứng dụng (ứng dụng khách) từ bước trước.
- Danh tính Google BigQuery sẽ được sử dụng trong bước tiếp theo.
- Thêm thông tin xác thực liên kết trong Azure.
- Đối với Giá trị nhận dạng chủ đề, hãy sử dụng danh tính Google trong BigQuery ở bước trước.
- Chỉ định vai trò cho các ứng dụng Azure của BigQuery, cấp quyền truy cập của người đọc Storage Blob Data.
- Tải dữ liệu vào tập dữ liệu BigQuery.
- Truy vấn dữ liệu trong Ads Data Hub. Tìm hiểu về việc tham gia dữ liệu của bên thứ nhất.
- Không bắt buộc: Lên lịch tải dữ liệu liên tục trong BigQuery.