שאלות נפוצות על DSPL

במסמך הזה מוצגות הבעיות הנפוצות ביותר שבעלי נתונים חווים כשיוצרים מערכי נתונים של DSPL ומעלים אותן ל-Public Data Explorer.

תוכן עניינים

שאלות כלליות

מה זה DSPL?

השם של DSPL הוא Dataset Publishing Language. זהו פורמט ייצוג של המטא-נתונים (מידע על מערך הנתונים, כמו השם והספק שלו, כמו גם הקונספטים שהוא מכיל ומוצג), וגם על הנתונים בפועל של מערכי הנתונים. המטא-נתונים מצוינים ב-XML, בעוד שהנתונים מסופקים בפורמט CSV.

מהם היתרונות העיקריים של השימוש ב-DSPL?

DSPL תוכנן מהיסוד עבור תצוגות חזותיות עשירות של נתונים, כמו אלה שב-Public Data Explorer. כדי ליצור את הרכיבים האלה נדרשים מטא-נתונים מפורטים לגבי פלחים, מאפיינים ומדדים, ישויות שלא נתמכות היטב בפורמטים אחרים של מערכי נתונים.

DSPL תומך גם בייבוא של מערכי נתונים, בהיררכיות של קונספטים (למשל, "country" הוא צאצא של "יבשת", נתונים עם קוד גיאוגרפי ומספר תכונות ייחודיות נוספות לשיפור חוויית ניתוח הנתונים.

האם ה-DSPL מהווה תחליף לפורמטים אחרים שמשמשים לניתוח נתונים או לניתוח נתונים?

בדרך כלל לא. כפי שצוין בתשובה הקודמת, DSPL נועד להצגה חזותית ולגילוי אינטראקטיביים. הוא לא נועד לשמש כפורמט כללי, של החלפה או ניתוח של נתונים.

מבחינתנו, בסופו של דבר, DSPL הוא משלים לפורמטים אחרים. למשתמשים צריכה להיות אפשרות ליצור מערכי נתונים של DSPL ממקורות אחרים כדי ליצור תצוגות חזותיות עשירות של נתונים.

מה אפשר לעשות עם מערך נתונים של DSPL?

אפשר לייבא את הנתונים ל-Public Data Explorer, לפרסם אותם, ולאפשר לאחרים לחקור את הנתונים באמצעות תצוגות חזותיות אינטראקטיביות ועשירות. מערכי נתונים שפורסמו יכולים להיכלל גם במאגר הנתונים הציבוריים, כדי שמשתמשים מעוניינים יוכלו למצוא אותם.

נכון לעכשיו, זו האפליקציה היחידה שמשתמשת ב-DSPL. עם זאת, אנחנו מעודדים אנשים להשתמש בו לאפליקציות אחרות, ואנו צופים שהפופולריות תגדל עם הזמן.

אילו סוגי מערכי נתונים הכי מתאימים ל-DSPL?

פורמט DSPL תומך באוספים שרירותיים של טבלאות, ולכן הוא מתאים למגוון רחב של סוגי מערכי נתונים. אבל רק קבוצת משנה של מערכי נתונים של DSPL תפיק תצוגות מעניינות ב-Public Data Explorer. המוצר האחרון, במיוחד, פועל בצורה הטובה ביותר עם נתונים:

  • כמות: לכל נקודה על הגרף משויכים מדד מספרי אחד או יותר (למשל, "אוכלוסיה", "מספר המקרים של שפעת", "הכנסה").
  • קטגורית: אפשר לארגן את הנתונים במספר סופי של קטגוריות שניתן לתאר (כמו "country" , "genders" , "age groups").
  • פעולות על ציר הזמן: לכל קטגוריה, מדדי הנתונים משתנים כפונקציה של זמן, והנקודות הסמוכות מופיעות במרחק של יום אחד לפחות (ה-Public Data Explorer לא יכול להציג מרווחי זמן קצרים יותר מיום אחד).
  • צבירה: לכל שילוב של קטגוריה / קטגוריה / מדד, יש נקודת נתונים בודדת, ולא רשימה של אירועים או עובדות.

יצרתי מערך נתונים של DSPL, ואני רוצה שהוא יופיע ב-Google Public Data Directory כדי שאחרים יוכלו למצוא אותו. למי צריך לפנות?

יש למלא את הטופס הזה ולספק קישור למערך הנתונים שלך.

אני מתקשה עם DSPL. איפה אפשר למצוא עזרה?

יש לפרסם את הבעיה בפורום הדיונים של DSPL.

קובצי מערך נתונים ב-DSPL

איך מקודדים קובצי XML ו-CSV?

כל קובצי ה-XML וה-CSV צריכים להיות בקידוד UTF-8. הערה: ASCII (שלפעמים מכונה "טקסט פשוט") היא קבוצת משנה של קוד UTF-8, ולכן גם מערכי הנתונים בפורמט הזה אמורים לפעול.

באיזו תוכנה להשתמש כדי ליצור ולערוך את קובצי מערך הנתונים שלי?

עורך טקסט פשוט, עם הדגשת תחביר למטרות קריאות, הוא הבחירה המומלצת לעריכת קובצי ה-XML שלך. אפשר לקרוא את המאמר הזה כדי לקבל המלצות ספציפיות לפלטפורמה. אנחנו ממליצים לא להשתמש במעבדי תמלילים עם תכונות כלליות, כי הם בדרך כלל מוסיפים תגי עיצוב נוספים ל-XML. זה יכול לגרום לשגיאות ייבוא.

גיליון אלקטרוני הוא בדרך כלל הדרך הקלה ביותר ליצור ולערוך את קובצי הנתונים. חשוב לשמור אותם בפורמט הנכון (ערכים בפורמט CSV / מופרדים בפסיקים).

יש לי נתונים ב-Excel, ב-SPSS, ב-SAS או במערכת אחרת. האם אפשר לייבא את הנתונים האלה ישירות ל-Public Data Explorer?

לא, לא כרגע. קודם יש לייצא את הנתונים לפורמט CSV, להוסיף את המטא-נתונים המתאימים של XML ואז להעלות מערך נתונים שתואם ל-DSPL ב-Public Data Explorer.

האם יש שם לשמות הקבצים שלי?

צריך לתת לקובץ ה-XML של מערך הנתונים שם שמסתיים ב-.xml. לקובצי נתוני ה-CSV המשויכים יכולים להיות שמות מכל הסוגים, בתנאי שהם תואמים לשמות שצוינו בתגי ה-<file> במטא-נתונים של ה-XML. לקובץ ה-ZIP ששימש לאריזה ולייבוא של מערך הנתונים ב-Public Data Explorer יכול להיות גם כל שם.

האם יש למיין את קובצי ה-CSV שלי?

כן. כדאי למיין את התוכן של קובצי ה-CSV לפי מאפיינים שאינם בסגנון זמן (בכל סדר או לפי כיוון) ובכל עמודה אחרת (למשל, לפי שעה).

לדוגמה, אם יש קובץ CSV עם העמודות date, dimension1, dimension2, metric1 ו-metric2, צריך למיין לפי dimension1 ו-dimension2 (בכל סדר שהוא). כדי למיין גם לפי העמודה 'תאריך/שעה', הערך האחרון הוא מיון העמודה.

המיון בדרך זו מבטיח שהתצפיות עבור כל סדרת זמנים יקובצו יחד, מה שמשפר משמעותית את יעילות תהליך הייבוא של DSPL.

מודל ותחביר של XML

איך מחליטים מה צריך להיות מדד ומה מאפיין?

מאפיין הוא ישות המשמשת לפילוח או לסינון של הנתונים שלך. לעומת זאת, מדד הוא הערך או הערכים שתועדו המשויכים לכל נקודה על הגרף.

באופן כללי, המאפיינים מסווגים לפי סיווג מסוים, בעוד שהמדדים הם לא קטגוריים ומשתנים לפי זמן ומספרים. כמה דוגמאות אב-טיפוס לכל אחת מהאפשרויות הבאות:

  • מידות: מדינה, מדינה, מחוז, אזור, שנה, חודש, מין, קטגוריית גיל, פלח תעשייה
  • מדדים: אוכלוסייה, תמ"ג, שיעור אבטלה, אוריינות, הכנסה, עלות, מחיר

מה ההבדל בין נכס לבין מאפיין?

הנכסים מצורפים לכל מופע של קונספט. לדוגמה, לנכס יבשתי יהיו ערכים שונים למדינות שונות. מצד שני, מאפיינים משויכים לקונספט בכללותו. לדוגמה: מאפיין isParent תקף לכל היבשות.

האם סדר התגים חשוב?

כן. מוסיפים את התגים לפי הסדר שבו הם מופיעים במדריך למפתחים. לדוגמה, המאפיין <topic> צריך להופיע לפני <type> בהגדרת הקונספט.

האם השימוש באותיות רישיות חשוב?

כן, צריך לכתוב את שמות המאפיינים והתגים ב-XML באותיות רישיות באותו אופן שבו הם מופיעים במדריך למפתחים. לדוגמה, שימוש ב-isparent במקום ב-isParent בתג property יגרום לשגיאת ייבוא.

האם לקונספט יכולים להיות שני הורים?

לא. לכל קונספט יכול להיות רק קובץ עזר אחד (isParent).

מושג מסוים יכול להתייחס לעצמו?

כן. במערך הנתונים של מכירות קמעונאיות בארה"ב אפשר לראות דוגמה להיררכיית קונספטים של הפניה עצמית.

עיצוב נתונים

איך מעצבים תאריכים?

אפשר לכתוב תאריכים בכל פורמט שניתן לתיאור בתקן Joda DateTime. יש לאחסן את קוד העיצוב של Joda במאפיין format בתוך הרכיב המתאים של עמודת הטבלה.

קודי העיצוב של Joda בפורמטים מסוימים של תאריכים מפורטים בהמשך:

דוגמה לתאריך פורמט Joda
2010 yyyy
מאי 2010 MMM yyyy
21/05/2010 MM/dd/yyyy
21/05/2010 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

חשוב לשים לב שהקוד של Joda לתווים בחודש הוא M, ולא m (שמייצג דקות).

אפשר להשתמש ביחידות זמן קטנות יותר מיום אחד?

הפורמט של Joda DateTime, ולכן גם DSPL, תומך בערכי זמן לפי הסדר של אלפיות השנייה. עם זאת, סייר הנתונים הציבוריים לא יכול להציג (עדיין) תצוגה מפורטת של מועדים הקטנים מיום.

שימוש במושגים קנוניים

מהם "מושגים קנוניים" ואיך הם שימושיים?

המונח "מושגים קנוניים" מתייחס לקבוצה של מושגים שנוצרו על ידי Google ומיועדים כ"אבני בניין" בסיסיות במערכי נתונים אחרים. הקונספטים עצמם מוגדרים באמצעות שש מערכי נתונים של DSPL שמקבצים את הראשונים לפי קטגוריות כמו "time" , "geo" וכו'. כדי לקבל גישה לקונספטים האלה, עליך לייבא את מערכי הנתונים הראשיים המתאימים בתחילת קובץ ה-XML של DSPL.

הקונספטים הקנוניים שימושיים מפני שהם עוזרים לחסוך זמן (למשל, אין צורך להזין באופן ידני ערכי קו רוחב וקו אורך לכל מדינה בעולם) וגם להצביע על האופן שבו הנתונים שלכם מומחשים. לדוגמה, הכלי Public Data Explorer משתמש בקונספטים של time:... כדי לעצב את ציר ה-X של תרשים הקו, להשתמש במאפיין name של הקונספט entity:entity כדי ליצור מחרוזות לממשק המשתמש של בוחר המאפיינים, להשתמש במאפיינים latitude ו-longitude של geo:location כדי להציג נתונים בתצוגה החזותית של המפה וכן הלאה.

האם כל המושגים הקנוניים מובנים ל-Public Data Explorer?

רוב הקונספטים הקנוניים שסופקו מובנים על ידי Public Data Explorer, אבל יש כמה שעדיין לא מוצגים בצורה ויזואלית. בהמשך ריכזנו כמה הצעות לפתרונות זמניים:

קונספט פתרון עקיף
quantity:index במקומה יש להשתמש באפשרות quantity:ratio או באפשרות quantity:magnitude.
time:quarter יש להשתמש בtime:month כפי שמתואר במדריך של DSPL.
time:week יש להשתמש בtime:day כפי שמתואר במדריך של DSPL.

מומלץ להמשיך לעקוב אחרי קבלת תמיכה נוספת לגבי המושגים האלה בעתיד.

איך משתמשים בתפיסה קנונית במערך הנתונים שלי?

כדאי לעיין במסמכי התיעוד כדי להבין את הקונספט הספציפי שבו רוצים להשתמש. כדאי גם לעיין במדריך DSPL, שכולל הוראות מפורטות מפורטות לפתרונות הנפוצים ביותר.

ייבוא והמחשה של מערכי נתונים

למה אי אפשר לייבא את מערך הנתונים שלי בהצלחה?

ממשק ההעלאה של ה-Public Data Explorer יסרוק את מערך הנתונים של DSPL ויחסום את הייבוא שלו אם יזוהו שגיאות. הייבוא רגיש מאוד לאיות, לשימוש באותיות רישיות ולסידור / מיקום של תגים בקובץ ה-XML, וגם לפריסה ולמיון של הנתונים בקובצי ה-CSV. לכן, ייתכן שיהיה צורך בכמה כרטיסים כדי לתקן את הבעיות האלה ולייבא את מערך הנתונים בהצלחה.

השלב הראשון בפתרון הבעיות האלה הוא לבדוק את הודעות השגיאה שמוצגות בממשק המשתמש ולבצע את פעולת התיקון המתאימה. מכיוון שלא תמיד קל להבין את ההודעות האלה (משהו שאנחנו עובדים כרגע על שיפור), יצרנו טבלה המסבירה את ההודעות הנפוצות ביותר:

שגיאה הסבר
מפתח משוכפל: ... טבלת ההגדרות עבור הקונספט שלך כוללת ערך מזהה חוזר (כלומר, ערך בעמודה עם שם זהה לקונספט). הערכים האלה משמשים לזיהוי ייחודי של מופעים ספציפיים של הקונספט, ולכן לא ניתן להשתמש בכפילויות.
חריגה מניתוח של שורות נתונים ממקור שנוצר משילוב המאפיינים, [...], מופיע ביותר מקבוצה נפרדת אחת של שורות בנתונים. קובצי ה-CSV לא ממוינים כראוי. בדיון שלמעלה מוסבר איך לעשות זאת.
חריגה בניתוח של שורות נתונים ממקור שנגרם על ידי פורמט לא חוקי: "..." בפורמט של "..." הפורמט של הערך הזה (בדרך כלל תאריך) בקובץ ה-CSV לא תואם לפורמט שמצוין בקובץ ה-XML. צריך לשנות את הפורמט או את הערך כך שיתאימו.
חריגה בניתוח שורות נתונים ממקור שנגרם ממספר רכיבים בשורה (...) לא תאם למספר המאפיינים שצוינו (...) בשורה: [...] בשורה בקובץ ה-CSV יש יותר מדי או פחות מדי ערכים. צריך לתקן את העיצוב של השורה הזו.
חריגה בניתוח שורות נתונים ממקור שנגרם על ידי 'מחרוזת קלט': '...' ערך בקובץ ה-CSV (בדרך כלל מספר שלם או מספר ממשי (float)) כולל תווים שאינם מספריים (למשל, סמל דולר, סימן אחוז וכו') שמונעים את ניתוחו כראוי. יש להסיר את התווים הנוספים האלה.
חריגה בניתוח שורות נתונים ממקור שנגרמה על ידי ערך נתונים '...' בנכס '...' של פרוסה '...' אינו ערך מרכזי של הקונספט '...' שצוין. אחת הפרוסות מכילה ערך מאפיין לא מזוהה (כלומר, שאינו מופיע ברשימה של כל הערכים האפשריים של הקונספט התואם). חוזרים לטבלה של הגדרת הקונספט של המימד ומוסיפים את הערך, אם צריך.
הכותרת '...' בנתונים היא נכס קבוע בטבלה כותרת העמודה בקובץ ה-CSV אינה תואמת למזהה העמודה שמוגדר בהגדרת טבלת ה-XML. צריך לשנות את זוגות שונים כך שהם יתאימו.
שגיאה בניתוח XML ... נמצא תוכן לא חוקי שמתחיל ברכיב '...'. אמור להתקבל אחד מהערכים '{...}', '{...}', ... . אלמנט ה-XML המצוין לא נמצא במקום הנכון. יש לוודא שההזמנה נכונה ושהרכיב מכיל את ההורה הנכון (לדוגמה, info עבור name).
שגיאה בניתוח XML ... המאפיין '...' אינו יכול להופיע ברכיב '...'. האיות, הפנייה או המיקום של מאפיין תג XML זה שגויים. מעיינים במסמכי התיעוד של השימוש המתאים.
שגיאה בניתוח XML. ... הרכיב '...' לא יכול לכלול את התו [ילדים], מפני שסוג התוכן של הסוג הוא לרכיב בלבד. קובץ ה-XML שלך מכיל טקסט מקוטע (שעשוי לגרום לתג שחסר בו < או >). יש לתקן את הטקסט ולנסות שוב.

מתקשים להבין הודעה שאינה מופיעה ברשימה שלמעלה? אפשר לפרסם הודעה בפורום של DSPL ואנחנו ננסה לעזור.

מערך הנתונים שלי מיובא בהצלחה, אבל לא ניתן להציג רכיבים חזותיים ב-Public Data Explorer. מה קורה?

הבעיה הזו מתרחשת כשמערך הנתונים הוא DSPL חוקי, אבל לא בקבוצת משנה של DSPL שניתן להציג ב-Public Data Explorer. יכולות להיות לכך הרבה סיבות. הסיבות הנפוצות ביותר הן:

  • הגדרת קונספט של מאפיין ללא טבלה: ללא המידע הזה, סייר הנתונים הציבוריים לא יודע אילו אפשרויות להציג בממשק המשתמש.
  • יצירת מערך נתונים עם ערכים בלבד: סייר הנתונים הציבורי מחייב לפחות מאפיין קטגורי אחד (כלומר, שאינו זמן) המוגדר במקום כלשהו במערך הנתונים, כדי לבנות כהלכה את ממשק המשתמש של התצוגה החזותית.
  • ללא הכללת מאפיין זמן בפלחים: ב-Public Data Explorer אפשר להציג רק פעולות על ציר הזמן. המערכת תתעלם מהמוצר ללא פרוסות ללא הגבלת זמן.
  • שימוש במאפיין זמן שונה מהמאפיינים הקנוניים time:...: סייר הנתונים הציבוריים משתמש בתפיסות הקנוניות של time לפריסה ולאנימציה של התצוגות החזותיות השונות במוצר. הוא לא מבין מושגים אחרים של זמן, כמו אלה שנוצרו בתוך מערך הנתונים שלך.
  • שימוש בערכי זמן גדולים מדי או קטנים מדי: סייר הנתונים הציבוריים עדיין לא מציג המחשה של מערכי נתונים עם פחות מדי ימים. בצד השני של הספקטרום יש לכלי בעיות ערכים גדולים מאוד (למשל, בעשרות אלפי שנים). אנחנו מקווים להפוך את רמת הפירוט הזו לגמישה יותר בעתיד.

איך אפשר לשלב מערך נתונים ויזואלי באתר שלי?

כדאי לעיין במאמר הזה במרכז העזרה של Public Data Explorer. כפי שמוסבר השני