डेटा कॉमंस प्रोजेक्ट

इस पेज पर Google Docs के सीज़न के लिए स्वीकार किए गए एक तकनीकी लेखन प्रोजेक्ट की जानकारी है.

प्रोजेक्ट की खास जानकारी

ओपन सोर्स संगठन:
डेटा कॉमंस
तकनीकी लेखक:
KilimAnnejaro
प्रोजेक्ट का नाम:
DataCommons के शुरुआती दस्तावेज़ को बेहतर बनाना
प्रोजेक्ट की अवधि:
मानक अवधि (तीन महीने)

प्रोजेक्ट का विवरण

सॉफ़्टवेयर इंजीनियर के तौर पर अपने करियर में, मैंने किसी नई टीम या प्रोजेक्ट में शामिल होने, कोड का डेटा स्टोर करने की जगह को हटाने, उसे चलाने, और दस्तावेज़ों में अहम जानकारी न होने पर सॉफ़्टवेयर ब्रेक देखने से बार-बार परेशान महसूस किया है. मैंने जल्द ही यह महसूस किया कि मैं लिखने और कंपोज़िशन का अपना जुनून, इन ज़रूरतों को पूरा करने के लिए इस्तेमाल कर सकती हूं. इस दौरान, मैंने जिन डेवलपर के साथ काम किया है उनके लिए एक मददगार माहौल बना सकती हूं. इससे मुझे पहले से मालूम जवाबों की समस्याओं को हल करने के बजाय, टेक्निकल इनोवेशन और क्रिएटिविटी पर ध्यान देना होगा.

समाज के कई लोगों को इस तकनीक और क्रिएटिविटी की तुरंत ज़रूरत है. खास तौर पर, सरकारी और गैर-लाभकारी सेक्टर के ऐसे नेताओं को अपनी समस्या के डेटासेट का विश्लेषण करना है जहां उनकी समस्या सबसे ज़्यादा है. इस डेटा को एक सेवा के तौर पर आसानी से उपलब्ध कराकर, DataCommons, विश्लेषकों के काम की एंट्री में आने वाली उन बाधाओं को दूर करता है जिन्हें ऐक्सेस करना आसान होता है और जो उस फ़ॉर्मैट के मुताबिक होता है जो काम के लिए ज़रूरी है. ऐसा करने के लिए, DataCommons इकट्ठा किए गए डेटा का एक नॉलेज ग्राफ़ बनाता है. इस प्रक्रिया में, ओपन सोर्स से जुड़े डेटा की क्वालिटी और उसे मैनेज करने के बारे में दिलचस्प सवाल पूछे जाते हैं. DataCommons संगठन के प्रस्ताव के साथ, Google समर ऑफ़ Docs में आवेदन करने पर, मुझे उम्मीद है कि मैं लोगों के हित के लिए, ओपन डेटा स्पेस में इन तकनीकी कोशिशों को सपोर्ट और बेहतर बनाऊंगी.

सुझाए गए समाधानों के साथ दस्तावेज़ में मौजूदा समस्याएं DataCommons की वेबसाइट में डेटासेट जोड़ने के लिए, dataCommons के बारे में निर्देश दिए गए हैं. हालांकि, निर्देश काफ़ी छोटे और साफ़ तौर पर नहीं दिए गए हैं. इनमें कई बुलेट पॉइंट शामिल हैं, जो डेटा डोनर से schema.org मार्कअप इस्तेमाल करने के बारे में बताते हैं. इस प्रोजेक्ट के हिस्से के तौर पर, मेरा सुझाव है कि dataCommons.org के 'शामिल हों' सेक्शन को हटाएं. मुझे नया डेटासेट जोड़ने के लिए एक ट्यूटोरियल तैयार करना है. इसमें यह बताया जाएगा कि डेटासेट को कैसे स्क्रैप किया जाता है और उसे DataCommons नॉलेज ग्राफ़ में कैसे शामिल किया जाता है. जब डेटासेट का मालिक, सहायता के लिए dataCommons मैनेजर से संपर्क करता है, तब आम तौर पर पूछे जाने वाले समाधानों के लिए, अक्सर पूछे जाने वाले सवालों का एक सेक्शन भी जोड़ा जाएगा.

डेटा की क्वेरी करने के उदाहरणों के मौजूदा सेट पर नज़र डालें, तो dataCommons सिर्फ़ चार इंटरैक्टिव कोड के उदाहरण देता है, जिनमें से सभी Python notebooks होते हैं. इस प्रोजेक्ट के हिस्से के तौर पर, मैं इन नोटबुक का R में अनुवाद कर दूंगा. साथ ही, Google Sheets और REST API के लिए मौजूदा उदाहरणों के इंटरैक्टिव डेमो वर्शन भी बनाऊँगा और इन डेमो को मौजूदा दस्तावेज़ों में एम्बेड कर दूंगा.

आखिर में, दस्तावेज़ इस बात का कोई उदाहरण नहीं देता कि सॉफ़्टवेयर में ऐप्लिकेशन बनाने के लिए, dataCommons नॉलेज ग्राफ़ का इस्तेमाल कैसे किया जा सकता है. इस प्रोजेक्ट के तहत, Python में एक सैंपल टूल बनाया जाएगा, डिप्लॉय किया जाएगा, और दस्तावेज़ में दर्ज किया जाएगा. यह टूल, dataCommons API का इस्तेमाल करता है, ताकि असली उपयोगकर्ता, नॉलेज ग्राफ़ में कनेक्ट किए गए दो अलग-अलग डेटा के ग्राफ़िकल विज़ुअलाइज़ेशन बना सकें. उदाहरण के लिए, इस टूल का इस्तेमाल करके कारोबार के सामान्य पैटर्न की जानकारी के लिए, मौसम के डेटा का लीनियर रिग्रेशन बनाया जा सकता है. नए लक्ष्य के तौर पर, मेरी कोशिश है कि इस टूल को अन्य विज़ुअलाइज़ेशन टाइप के लिए भी इस्तेमाल किया जा सके. जैसे, पाई चार्ट और वेन डायग्राम.

शेड्यूल यह सीज़न 14 सितंबर से 30 नवंबर तक चलेगा. इसलिए, इस प्रोजेक्ट को पूरा करने का मेरा प्लान कुछ ऐसा है:

सितंबर: 'शामिल हों' सेक्शन को फिर से लिखना शुरू करें. ज़्यादातर यह काम सितंबर के आखिर तक पूरा कर लिया जाता है.

अक्टूबर: 'शामिल हों' सेक्शन को रैप करें और इंटरैक्टिव कोड सैंपल बनाएं.

नवंबर: सैंपल विज़ुअलाइज़ेशन टूल बनाएं.