פרויקט Data Commons

דף זה מכיל את הפרטים של פרויקט כתיבה טכנית שהתקבל בעונה של Google Docs.

סיכום הפרויקט

ארגון הקוד הפתוח:
Data Commons
כתב טכני:
KilimAnnejaro
שם הפרויקט:
שיפור התיעוד של DataCommons לתחילת העבודה
אורך הפרויקט:
אורך רגיל (3 חודשים)

תיאור הפרויקט

במהלך הקריירה שלי כמהנדס תוכנה, נתקלתי שוב ושוב בתסכול בעקבות ההצטרפות לצוות או לפרויקט חדש, שליפת מאגר קודים, הפעלתו וצפייה בהפסקות התוכנה כששלבים חשובים נעדרו בתיעוד. מהר מאוד הבנתי שאוכל ליישם את התשוקה שלי לכתיבה והלחנה על הצרכים האלה תוך כדי יצירת סביבה תומכת למפתחים שאיתם עבדתי שיתמקדו בחדשנות טכנית וביצירתיות, במקום לפתור בעיות בעזרת תשובות ידועות.

החדשנות הטכנית והיצירתיות הזו נדרשות בדחיפות בפלחים רבים בחברה, במיוחד על ידי מנהיגים במגזר הממשלתי ובמגזר העמותות שמעוניינים לנתח מערכי נתונים במרחבי הבעיות שלהם. באמצעות הפיכת הנתונים האלה לזמינים כשירות, DataCommons מצמצם את חסמי הכניסה לאנליסטים שמחפשים נתונים שקל לגשת אליהם וקרוב לפורמט שהם צריכים לתפקיד שלהם. כדי לעשות זאת, DataCommons יוצר תרשים ידע של הנתונים שהוא מטמיע, תוך כדי העלאת שאלות מעניינות לגבי איכות הנתונים וניהולם בהקשר של קוד פתוח. על ידי הגשת בקשה ל-Google Summer of Docs עם הצעה לארגון DataCommons, אני מקווה לתמוך במאמצים הטכניים האלה ולקדם אותם בתחום הנתונים הפתוח לטובת הציבור.

בעיות נוכחיות במסמכי התיעוד בנושא פתרונות מוצעים אמנם האתר dataCommons מכיל הוראות להוספת מערכי נתונים ל-dataCommons, אבל ההוראות קצרות מאוד ולא ברורות וכוללות כמה נקודות שמפנות את תורם הנתונים הפוטנציאלי להשתמש בסימון schema.org. במסגרת הפרויקט הזה, אני מציע למחוק את הקטע 'הצטרפות לפעולה' ב-dataCommons.org. אצור מדריך להוספת מערכי נתונים חדשים, ואסביר איך מערכי נתונים עוברים העתקה ומשולבים בתרשים הידע של dataCommons. אני אוסיף גם קטע של שאלות נפוצות לגבי פתרונות נפוצים שיוצעו כשבעלים של מערך נתונים יפנה לתחזקי dataCommons לקבלת עזרה.

ב-dataCommons אנחנו בוחנים את קבוצת הדוגמאות הנוכחית לביצוע שאילתות על נתונים. ב-dataCommons יש רק ארבע דוגמאות לקודים אינטראקטיביים, כולן מחברות של Python. במסגרת הפרויקט הזה, אתרגם את המחברות ל-R ואצור גרסאות הדגמה אינטראקטיביות של הדוגמאות הקיימות ל-Google Sheets ול-REST API, ולהטמיע את ההדגמות האלה בתיעוד הנוכחי.

לבסוף, התיעוד לא באמת מספק דוגמאות לאופן שבו ניתן להשתמש בתרשים הידע של dataCommons כדי לפתח אפליקציות בתוכנה. כחלק מהפרויקט הזה, אצור, אפרוס ואתעד כלי לדוגמה ב-Python שמשתמש ב-dataCommons API כדי לאפשר למשתמש הקצה ליצור תצוגות חזותיות גרפיות שקשורות לכל שתי כמויות שמקושרות בתוך תרשים הידע. לדוגמה, ניתן להשתמש בכלי הזה כדי לצייר רגרסיה ליניארית הקשורה לנתוני מזג אוויר אל מידע נפוץ על דפוסים עסקיים. בתור יעד נוסף, אני מקווה להרחיב את הכלי הזה לסוגים אחרים של הצגות חזותיות, כמו תרשימי עוגה ודיאגרמות ון.

לוח זמנים העונה נמשכת מ-14 בספטמבר עד 30 בנובמבר, כך שהתוכנית שלי להשלמת הפרויקט הזה נראית כך:

ספטמבר: התחילו בשכתוב הקטע 'קבלו מעורבות'. בדרך כלל מסיימים את העבודה עד סוף ספטמבר.

אוקטובר: לסיים את הקטע 'רוצה להיות מעורב' וליצור את דוגמאות הקוד האינטראקטיביות.

נובמבר: יצירת כלי התצוגה החזותית לדוגמה.