סוגי נתונים וסוגים סמנטיים

כשיוצרים פלאגין חיבור למקור נתונים, צריך להגדיר סוג נתונים לכל שדה בסכימה. סוג הנתונים מגדיר את הסוג הפרימיטיבי של השדה, כמו BOOLEAN, ‏STRING, ‏NUMBER וכו'.

בנוסף לסוגי נתונים, Data Studio משתמש גם בסוגים סמנטיים. סוגים סמנטיים עוזרים לתאר את סוג המידע שהנתונים מייצגים. לדוגמה, שדה עם סוג הנתונים NUMBER יכול לייצג סכום כסף או אחוז, ושדה עם סוג הנתונים STRING יכול לייצג עיר. כדי לראות אילו סוגים סמנטיים זמינים, אפשר לעיין בתיעוד של סוגים סמנטיים.

סכימה של מחבר קהילתי ושדות של Data Studio

כשמגדירים את הסכימה של פלאגין חיבור למקור נתונים, יש מאפיינים שונים לכל שדה שיקבעו איך השדה יוצג וישמש ב-Data Studio. לדוגמה:

  • המאפיין conceptType מוגדר בסכימת המחבר באמצעות המאפיין conceptType. המאפיין הזה קובע אם השדה יטופל כמאפיין או כמדד. הסבר על ההבדל בין מדדים למאפיינים זמין במאמר מאפיינים ומדדים.
  • אפשר להגדיר את הסוג הסמנטי בסכימת המחבר, או שמערכת Data Studio יכולה לזהות אותו באופן אוטומטי על סמך מאפיין סוג הנתונים שמוגדר במחבר וערכי הנתונים שמוחזרים על ידי המחבר. פרטים נוספים על אופן הפעולה של התכונה זמינים במאמר בנושא זיהוי אוטומטי של סוגים סמנטיים.
  • סוג הצבירה קובע אם אפשר לצבור מחדש את ערכי המדדים (המערכת מתעלמת מהמאפיינים). אם מגדירים את המאפיין semantics.isReaggregatable כ-true, ברירת המחדל היא צבירה של SUM. אחרת, המאפיין מוגדר כ-Auto. אפשר גם להגדיר ידנית את סוג הצבירה שמוגדר כברירת מחדל לשדות שאפשר לחשב מצטבר באמצעות המאפיין defaultAggregationType.

כשמגדירים ומקשרים באמצעות מחבר ב-Data Studio, בעורך השדות מוצגת הסכימה המלאה של המחבר על סמך האופן שבו הגדרתם את המאפיינים שלמעלה. אם כללתם את הסוגים הסמנטיים, הם יוצגו כמו שהגדרתם אותם. אם אתם משתמשים בזיהוי אוטומטי של סוגים סמנטיים, השדות יופיעו כמו שהם זוהו. מסך השדות

הגדרת מידע סמנטי

יש שתי דרכים להגדיר מידע סמנטי. אפשר להגדיר את הסמנטיקה של השדות באופן ידני או להסתמך על Data Studio שיזהה אותה באופן אוטומטי.

לדוגמה, אם יש לכם מספר שמייצג מבחינה סמנטית דולר אמריקאי, Data Studio לא יוכל לזהות אוטומטית את הסוג הסמנטי הזה. בנוסף, כדי להשתמש בזיהוי סמנטי אוטומטי, מערכת Data Studio צריכה לבצע קריאות לאחזור נתונים לכל שדה בסכימה. אם מציינים את הסכימה באופן ידני, לא יתבצעו קריאות לשליפת נתונים. אם אתם יודעים מה הסוג הסמנטי של הנתונים (למשל, מטבע, אחוז, תאריך וכו'), מומלץ להגדיר אותו באופן מפורש בסכימה כדי לשפר את הדיוק והביצועים.

הגדרה ידנית של סוגים סמנטיים (מומלץ)

אם אתם יודעים מהם הסוגים הסמנטיים, אתם יכולים להגדיר באופן ידני את semantics לכל שדה סכימה. פרטים מלאים על המאפיינים שזמינים לכם מופיעים בדף העזר בנושא שדות. אם בוחרים להגדיר סוגים סמנטיים באופן ידני, מומלץ להגדיר את semanticType ואת semanticGroup לכל שדה. אם תספקו את המאפיינים האלה באופן ידני, תהליך הזיהוי האוטומטי של סוגים סמנטיים לא יפעל. אם מגדירים חלק מהשדות באופן ידני, אבל לא את כולם, ברירת המחדל של השדות שלא צוינו היא Text, Number או Boolean, בהתאם לערך dataType שצוין בשדה.

הדוגמה הבאה היא של סכימה פשוטה שבה סוגים סמנטיים מוגדרים באופן ידני. ‫Income מוגדר כמטבע ו-Filing Year מוגדר כתאריך.

data-studio/semantics.gs
const schema = [
  {
    name: "Income",
    label: "Income (in USD)",
    dataType: "NUMBER",
    semantics: {
      conceptType: "METRIC",
      semanticGroup: "CURRENCY",
      semanticType: "CURRENCY_USD",
    },
  },
  {
    name: "Filing Year",
    label: "Year in which you filed the taxes.",
    dataType: "STRING",
    semantics: {
      conceptType: "METRIC",
      semanticGroup: "DATE_OR_TIME",
      semanticType: "YEAR",
    },
  },
];

פתרון בעיות שקשורות לסוגים סמנטיים ידניים

אם מגדירים את הסוגים הסמנטיים בצורה שגויה עבור הנתונים הבסיסיים, הם לא יפעלו כמו שצריך. יכול להיות שיהיה קשה לבדוק את זה, אבל יש כמה דברים שאפשר לעשות כדי לנסות לזהות בעיות.

  1. להחזיר 2 או 3 שורות מהנתונים במקום את כל הנתונים, ואז לבדוק אותם באופן ידני.
  2. יוצרים ב-Looker Studio טבלה שמשתמשת רק בשדה שרוצים לבדוק.
  3. חשוב לשים לב לשדות Geo ו-Date כי הפורמט שלהם הכי מחמיר.

זיהוי אוטומטי של סוגים סמנטיים

אם לא הגדרתם סוגים סמנטיים בסכימה, Data Studio ינסה לזהות אותם באופן אוטומטי על סמך המאפיין data type והפורמט של ערכי הנתונים שמוחזרים על ידי המחבר.

אלה השלבים בתהליך הזיהוי האוטומטי:

  1. בקש את הסכימה על ידי הרצת הפונקציה getSchema של פלאגין חיבור למקור נתונים.
  2. מבצעים איטרציה על קבוצות של שדות שמוגדרים בסכימת המחבר ושולחים בקשות getData לשדות. הבקשות getData מבוצעות עם הפרמטר sampleExtraction שמוגדר לערך true כדי לציין שהבקשות לנתונים מיועדות למטרות של זיהוי סמנטי.
  3. מזהים את הסוג הסמנטי של השדה על סמך סוג הנתונים של השדה והפורמט של הערך שמוחזר מהבקשה getData.

אפשרויות לטיפול בזיהוי אוטומטי של סוגים סמנטיים

כש-Data Studio מפעיל את הפונקציה getData של פלאגין חיבור למקור נתונים מהקהילה לצורך זיהוי סמנטי, הבקשה הנכנסת תכיל מאפיין sampleExtraction שיוגדר לערך true. הנתונים שמוחזרים על ידי המחבר שלכם משמשים את Data Studio רק כדי לזהות את הסוג הסמנטי של השדה. מכיוון שהערך לא ישמש לשום מטרה אחרת, לא נדרשים נתונים בפועל מהמקור החיצוני.

יש כמה דרכים לשפר את הזיהוי של סוגים סמנטיים בקוד:

  • מומלץ: העברת ערכים מוגדרים מראש
    מחזירים ערך מוגדר מראש לכל שדה שמייצג בצורה הטובה ביותר את הסוג הסמנטי של השדה, ושמזוהה בצורה תקינה על ידי Data Studio. לדוגמה, אם הסוג הסמנטי של שדה הוא Country, הפונקציה תחזיר ערך כמו IT עבור איטליה. יתרון נוסף של הגישה הזו הוא שהיא מהירה יותר, כי לא צריך לשלוח בקשות HTTP לשירות של צד שלישי כדי לקבל נתונים.

  • מחזירה רק n מספר רשומות
    אם שירות הצד השלישי שממנו מאחזרים נתונים תומך בהגבלת מספר השורות כשמבקשים נתונים, הפונקציה מחזירה קבוצת משנה קטנה של שורות ל-Data Studio במקום מערך הנתונים המלא. כך תגבילו את כמות הנתונים שתצטרכו להעביר ל-Data Studio לכל בקשה לזיהוי סמנטי.

  • שליחת בקשה לכל העמודות ושמירת התגובה במטמון
    אם אפשר לשלוח בקשה לכל העמודות של שירות הצד השלישי שממנו מאחזרים נתונים, אז בבקשת הזיהוי הסמנטי הראשונה שמתקבלת מ-Data Studio, מאחזרים את כל העמודות ושומרים את התוצאות במטמון. בבקשות הבאות לזיהוי סמנטי, המערכת מאחזרת את ערכי העמודות מהמטמון במקום לשלוח בקשות HTTP נוספות לשירות של הצד השלישי.

  • לא לבצע שינוי
    אתם יכולים לבחור שלא להטמיע התאמות ספציפיות לבקשות שבהן הערך של sampleExtraction הוא true. התהליך הזה יגרום לתהליך הזיהוי הסמנטי להיות איטי יותר, כי Data Studio יצטרך לאחזר את כל הנתונים לתהליך הזיהוי הסמנטי. בנוסף, זה ישפיע על קצב הבקשות למקור הנתונים החיצוני, כי הרבה בקשות לזיהוי סמנטי יבוצעו במקביל.

פורמטים מוכרים לזיהוי אוטומטי של סוגים סמנטיים

תאריך ושעה
  • YYYY/MM/DD-HH:MM:SS
  • YYYY-MM-DD [HH:MM:SS[.uuuuuu]]
  • YYYY/MM/DD [HH:MM:SS[.uuuuuu]]
  • YYYYMMDD [HH:MM:SS[.uuuuuu]]
  • Sat, 24 May 2008 20:09:47 GMT
  • 2008-05-24T20:09:47Z
  • זמן: תקופת זמן המערכת בשניות, במיקרו-שניות, באלפיות השנייה ובננו-שניות.
Geo