מקור נתונים חיצוני הוא מקור נתונים שאפשר להריץ עליו שאילתות ישירות מ-BigQuery, למרות שהנתונים לא מאוחסנים באחסון ב-BigQuery. לדוגמה, יכול להיות שיש לכם נתונים במסד נתונים אחר של Google Cloud, בקבצים ב-Cloud Storage או במוצר אחר בענן שרוצים לנתח ב-BigQuery, אבל שאתם לא מוכנים לבצע את ההעברה.
תרחישים לדוגמה למקורות נתונים חיצוניים:
- עבור עומסי עבודה של extract-load-transform (ELT), טעינה וניקוי של הנתונים במעבר אחד וכתיבת התוצאה הנקייה באחסון של BigQuery באמצעות השאילתה
CREATE TABLE ... AS SELECT
. - שילוב טבלאות ב-BigQuery עם נתונים שמשתנים לעיתים קרובות ממקור נתונים חיצוני. אין צורך לטעון מחדש את הנתונים לאחסון ב-BigQuery בכל פעם שהם משתנים, על ידי שליחת שאילתה ישירות למקור הנתונים החיצוני.
לקוחות של Ads Data Hub יכולים למנף את התכונה הזו ב-BigQuery כדי לייבא בקלות נתונים מאינטראקציה ישירה (First-Party) ממקורות אחרים, כמו S3 ו-Azure, ולצרף אותם לנתוני הפרסום ב-Google בשאילתות.
לפרטים מלאים על חיבור מקורות נתונים חיצוניים ל-BigQuery, קראו את המאמר מבוא למקורות נתונים חיצוניים.
מגבלות
- יש תמיכה במיקומים הבאים. אם הנתונים שלכם מ-AWS או מ-Azure נמצאים באזור שלא נתמך, תוכלו גם להשתמש ב-BigQuery Data Transfer Service.
- AWS – מזרח ארה"ב (N. וירג'יניה) (
aws-us-east-1
) - תכלת – מזרח ארה"ב 2 (
azure-eastus2
)
- AWS – מזרח ארה"ב (N. וירג'יניה) (
- משימות שרצות על נתונים מחיבורים ב-BigQuery:
- כפופים לאותן דרישות צבירת נתונים כמו משימות אחרות ב-Ads Data Hub
- חייבים לפעול בהתאם למדיניות של Google
Amazon S3
בהמשך מוצגת סקירה כללית של השלבים הנדרשים לייצוא נתונים מ-Amazon S3 ל-BigQuery לצורך שימוש ב-Ads Data Hub. לפרטים מלאים קראו את המאמר התחברות ל-Amazon S3.
- יצירת מדיניות IAM של AWS ל-BigQuery. אחרי שיוצרים את המדיניות, אפשר למצוא את Amazon Resource Name (ARN) בדף Policy details (פרטי המדיניות).
- יצירת תפקיד AWS IAM ל-BigQuery, באמצעות המדיניות שנוצרה בשלב הקודם.
- אפשר ליצור חיבור ב-BigQuery. יצירת חיבור לפרויקט ב-BigQuery של-Ads Data Hub יש גישה אליו – לדוגמה, פרויקט האדמין שלכם. הזהות של BigQuery Google, שבה ייעשה שימוש בשלב הבא, מוצגת בדף Connection info.
- צריך להוסיף קשר של אמון לתפקיד ב-AWS. בדף AWS IAM, עורכים את התפקיד שנוצר בשלב הקודם:
- שנו את משך הסשן המקסימלי ל-12 שעות.
- מוסיפים מדיניות מהימנות לתפקיד AWS באמצעות הזהות של Google ב-BigQuery שנוצרה בשלב הקודם.
- טוענים נתונים למערך הנתונים ב-BigQuery.
- שאילתות על הנתונים ב-Ads Data Hub. מידע נוסף על צירוף נתונים מאינטראקציה ישירה (First-Party)
- אופציונלי: אפשר לתזמן טעינת נתונים רציפה ב-BigQuery.
Azure Blob Storage
בהמשך מופיעה סקירה כללית של השלבים הנדרשים לייצוא נתונים מ-AzureBlob Storage ל-BigQuery לשימוש ב-Ads Data Hub. פרטים נוספים זמינים במאמר התחברות ל-Blob Storage.
- יצירת אפליקציה בדייר Azure.
- אפשר ליצור חיבור ב-BigQuery.
- מזהה דייר הוא מזהה הספרייה מהשלב הקודם.
- מזהה אפליקציה (לקוח) מאוחד הוא מזהה האפליקציה (הלקוח) מהשלב הקודם.
- BigQuery Google Identity ישמש בשלב הבא.
- צריך להוסיף פרטי כניסה מאוחדים ב-Azure.
- למזהה הנושא, צריך להשתמש בזהות של Google ב-BigQuery מהשלב הקודם.
- מקצים תפקיד לאפליקציות Azure של BigQuery ומעניקים גישה ל-Storage Lob Data.
- טוענים נתונים למערך הנתונים ב-BigQuery.
- שאילתות על הנתונים ב-Ads Data Hub. מידע נוסף על צירוף נתונים מאינטראקציה ישירה (First-Party)
- אופציונלי: אפשר לתזמן טעינת נתונים רציפה ב-BigQuery.