डेटा कॉमंस प्रोजेक्ट

इस पेज पर, तकनीकी लेखन वाले उस प्रोजेक्ट की जानकारी दी गई है जिसे Google Season of Docs के लिए स्वीकार किया गया है.

प्रोजेक्ट की खास जानकारी

ओपन सोर्स संगठन:
डेटा कॉमंस
टेक्निकल राइटर:
KilimAnnejaro
प्रोजेक्ट का नाम:
DataCommons का इस्तेमाल शुरू करने से जुड़े दस्तावेज़ को बेहतर बनाना
प्रोजेक्ट की अवधि:
स्टैंडर्ड लंबाई (तीन महीने)

प्रोजेक्ट का विवरण

सॉफ़्टवेयर इंजीनियर के तौर पर अपने करियर में, मुझे कई बार नई टीम या प्रोजेक्ट में शामिल होने, कोड रिपॉज़िटरी को डाउनलोड करने, उसे चलाने, और दस्तावेज़ में ज़रूरी चरणों के मौजूद न होने पर सॉफ़्टवेयर के काम न करने पर परेशानी हुई है. मुझे जल्द ही पता चल गया कि मैं लेखन और कॉम्पोज़िशन के अपने जुनून को इन ज़रूरतों के लिए इस्तेमाल कर सकता हूं. इस प्रोसेस में, मैंने उन डेवलपर के लिए एक सहायक माहौल बनाया जिनके साथ मैंने काम किया. इससे, वे समस्याओं को पहले से मौजूद जवाबों से हल करने के बजाय, तकनीकी इनोवेशन और क्रिएटिविटी पर फ़ोकस कर पाए.

समाज के कई सेगमेंट में, इस तकनीकी इनोवेशन और क्रिएटिविटी की ज़रूरत है. खास तौर पर, सरकार और ग़ैर-लाभकारी क्षेत्र के नेताओं को अपनी समस्याओं के लिए डेटासेट का विश्लेषण करने के लिए, इसकी ज़रूरत है. इस डेटा को सेवा के तौर पर आसानी से उपलब्ध कराने से, DataCommons उन विश्लेषकों के लिए डेटा ऐक्सेस करने की प्रक्रिया को आसान बनाता है जो आसानी से ऐक्सेस किया जा सकने वाला और अपनी भूमिकाओं के लिए ज़रूरी फ़ॉर्मैट वाला डेटा चाहते हैं. DataCommons, डाले गए डेटा का नॉलेज ग्राफ़ बनाकर ऐसा करता है. इस प्रोसेस में, ओपन सोर्स के संदर्भ में डेटा क्वालिटी और उसे मैनेज करने के बारे में दिलचस्प सवाल पूछे जाते हैं. DataCommons संगठन के लिए एक प्रस्ताव के साथ Google Summer of Docs में आवेदन करके, मुझे उम्मीद है कि सार्वजनिक हित के लिए ओपन डेटा स्पेस में, इन तकनीकी प्रयासों को आगे बढ़ाने और उनका समर्थन करने में मदद मिलेगी.

दस्तावेज़ में मौजूद समस्याएं और उनके लिए सुझाए गए समाधान dataCommons की वेबसाइट पर, dataCommons में डेटासेट जोड़ने के लिए निर्देश मौजूद हैं. हालांकि, ये निर्देश बहुत छोटे और अस्पष्ट हैं. इनमें कई बुलेट पॉइंट हैं, जिनमें डेटा देने वाले को schema.org मार्कअप का इस्तेमाल करने के लिए कहा गया है. इस प्रोजेक्ट के हिस्से के तौर पर, मेरा सुझाव है कि dataCommons.org के 'शामिल हों' सेक्शन को खाली किया जाए. मैं नए डेटासेट जोड़ने के लिए एक ट्यूटोरियल बनाऊंगा. इसमें यह बताया जाएगा कि डेटासेट को कैसे स्क्रैप किया जाता है और dataCommons के नॉलेज ग्राफ़ में शामिल किया जाता है. हम अक्सर पूछे जाने वाले सवालों का एक सेक्शन भी जोड़ेंगे. इसमें, डेटासेट के मालिक को सहायता पाने के लिए, dataCommons के रखरखाव करने वालों से संपर्क करने पर, सामान्य समस्याओं के समाधान के सुझाव दिए जाएंगे.

डेटा क्वेरी करने के उदाहरणों के मौजूदा सेट को देखते हुए, dataCommons सिर्फ़ चार इंटरैक्टिव कोड के उदाहरण देता है. ये सभी उदाहरण, Python नोटबुक हैं. इस प्रोजेक्ट के तहत, मैं इन नोटबुक को R में ट्रांसलेट करूंगा. साथ ही, Google Sheets और REST API के मौजूदा उदाहरणों के इंटरैक्टिव डेमो वर्शन बनाऊंगा. इन डेमो को मौजूदा दस्तावेज़ में जोड़ूंगा.

आखिर में, दस्तावेज़ में इस बारे में कोई उदाहरण नहीं दिया गया है कि सॉफ़्टवेयर में ऐप्लिकेशन बनाने के लिए, dataCommons के नॉलेज ग्राफ़ का इस्तेमाल कैसे किया जा सकता है. इस प्रोजेक्ट के तहत, मैं Python में एक सैंपल टूल बनाऊंगा, उसे डिप्लॉय करूंगा, और उसका दस्तावेज़ तैयार करूंगा. यह टूल, dataCommons API का इस्तेमाल करता है. इससे असली उपयोगकर्ता, नॉलेज ग्राफ़ में जुड़ी किसी भी दो वैल्यू से जुड़े ग्राफ़िकल विज़ुअलाइज़ेशन बना सकता है. उदाहरण के लिए, इस टूल का इस्तेमाल करके, कारोबार के पैटर्न की सामान्य जानकारी से मौसम के डेटा का लीनियर रिग्रेशन बनाया जा सकता है. हमारा मकसद इस टूल को अन्य तरह के विज़ुअलाइज़ेशन के लिए भी उपलब्ध कराना है. जैसे, पाई चार्ट और वेन डायग्राम.

शेड्यूल सीज़न 14 सितंबर से 30 नवंबर तक चलता है. इसलिए, इस प्रोजेक्ट को पूरा करने का मेरा प्लान कुछ ऐसा है:

सितंबर: 'शामिल हों' सेक्शन को फिर से लिखना शुरू करें. ज़्यादातर काम सितंबर के आखिर तक पूरा कर लें.

अक्टूबर: 'शामिल हों' सेक्शन को खत्म करें और इंटरैक्टिव कोड सैंपल बनाएं.

नवंबर: विज़ुअलाइज़ेशन टूल का सैंपल बनाएं.