פרויקט Data Commons

בדף הזה מפורטים פרטי פרויקט של כתיבה טכנית שאושר להשתתפות בתוכנית Google Season of Docs.

סיכום הפרויקט

ארגון בקוד פתוח:
Data Commons
כותבים טכניים:
KilimAnnejaro
שם הפרויקט:
שיפור מסמכי התיעוד למתחילים ב-DataCommons
אורך הפרויקט:
אורך סטנדרטי (3 חודשים)

תיאור הפרויקט

במהלך הקריירה שלי כמהנדס תוכנה, נתקלתי שוב ושוב בתסכול מהניסיון להצטרף לצוות או לפרויקט חדשים, להוריד מאגר קוד, להריץ אותו ולראות שהתוכנה נתקלת בבעיות כי שלבים חשובים חסרים במסמכי התיעוד. הבנתי במהירות שאוכל להשתמש בתחושת התשוקה שלי לכתיבה וליצירה כדי לענות על הצרכים האלה, ובמהלך התהליך ליצור סביבה תומכת למפתחים שאיתם עבדתי, כדי שיוכלו להתמקד בחדשנות טכנית וביצירתיות, במקום לפתור בעיות עם תשובות ידועות.

יש צורך דחוף בחדשנות הטכנית וביצירתיות הזו בתחומים רבים בחברה, במיוחד בקרב מנהיגים בממשל ובמגזר הלא ממשלתי שרוצים לנתח מערכי נתונים במרחבי הבעיות שלהם. על ידי הפיכת הנתונים האלה לזמינים כשירות, DataCommons מסיר את מחסום הכניסה לאנליסטים שמחפשים נתונים שקל לגשת אליהם וקרוב לפורמט שדרוש להם לתפקיד שלהם. כדי לעשות זאת, DataCommons יוצרת תרשים ידע של הנתונים שהיא מטמיעה, ובמהלך התהליך מעלה שאלות מעניינות לגבי איכות הנתונים וניהול הנתונים בהקשר של קוד פתוח. הבקשה שלי להשתתף בתוכנית Google Summer of Docs עם הצעה לארגון DataCommons נועדה לתמוך במאמצים הטכניים האלה ולקדם אותם בתחום הנתונים הפתוחים לטובת הציבור.

נקודות כאב נוכחיות במסמכי העזרה עם פתרונות מוצעים אתר dataCommons מכיל הוראות להוספת מערכי נתונים ל-dataCommons, אבל ההוראות קצרות מאוד ולא ברורות. הן מורכבות מכמה נקודות חשובות שמנחות את תורם הנתונים לעתיד להשתמש בתגי עיצוב של schema.org. כחלק מהפרויקט הזה, אני מציע לנקות את הקטע 'מעורבות' ב-dataCommons.org. אצור מדריך להוספת מערכי נתונים חדשים, שבו אסביר איך מערכי נתונים נסרקים ומשולבים בתרשים הידע של dataCommons. אוסיף גם קטע של שאלות נפוצות עם פתרונות נפוצים שמוצעים כשבעלים של מערך נתונים פונה למנהלי dataCommons לקבלת עזרה.

בקבוצת הדוגמאות הנוכחית לשאילתות על נתונים, ב-dataCommons מוצגות רק ארבע דוגמאות אינטראקטיביות לקוד, כולן notebooks של Python. כחלק מהפרויקט הזה, אתרגם את המחברות האלה ל-R ואצור גם גרסאות הדגמה אינטראקטיביות של הדוגמאות הקיימות ל-Google Sheets ול-REST API, ואטמיע את הדגמות האלה במסמכי התיעוד הנוכחיים.

לבסוף, במסמכי העזרה לא מפורטות דוגמאות לשימוש בתרשים הידע של dataCommons ליצירת אפליקציות בתוכנה. כחלק מהפרויקט הזה, אצור, אפרוס ואתעד כלי לדוגמה ב-Python שמשתמש ב-dataCommons API כדי לאפשר למשתמש הקצה ליצור תצוגות חזותיות גרפיות שקשורות לשני ערכים כלשהם שמקושרים בתוך ה-Knowledge Graph. לדוגמה, ייתכן שתוכל להשתמש בכלי זה כדי לשרטט רגרסיה ליניארית הקשורה לנתוני מזג אוויר למידע על דפוסים עסקיים נפוצים. כיעד נוסף, אני מקווה להרחיב את הכלי הזה לסוגים אחרים של המחשות ויזואליות, כמו תרשימי עוגה ודיאגרמות ון.

לוח זמנים העונה מתחילה מ-14 בספטמבר עד 30 בנובמבר, כך שהתוכנית שלי להשלמת הפרויקט נראית כך:

ספטמבר: מתחילים לכתוב מחדש את הקטע 'מעורבות'. רוב העבודה הזו אמורה להסתיים עד סוף ספטמבר.

אוקטובר: סיכום הקטע 'מעורבות' ויצירת דוגמאות הקוד האינטראקטיביות.

נובמבר: יצירה של כלי תצוגה לדוגמה.