डेटासेट

डेटासेट के बारे में व्यवस्थित डेटा के तौर पर जानकारी देने जैसे कि उसका नाम, उसे बनाने वाले का नाम, उसे बाँटने का तरीका और उसके बारे में कुछ बताने से उसे ढूंढना आसान हो जाता है. डेटासेट को खोजने के Google के तरीके में schema.org और उन दूसरे मेटाडेटा मानकों का इस्तेमाल करना शामिल है, जिन्हें डेटा की जानकारी देने वाले पेजों में जोड़ा जा सकता है. इस मार्कअप का उद्देश्य जीवन विज्ञान, सामाजिक विज्ञान, मशीन लर्निंग, नागरिक और सरकारी डेटा वगैरह जैसे फ़ील्ड से डेटा की खोज को बेहतर बनाना है.

यहां पर ऐसी चीज़ों के कुछ उदाहरण दिए गए हैं, जो डेटासेट हो सकती हैं:

  • कुछ डेटा के साथ टेबल या CSV फ़ाइल
  • टेबल का व्यवस्थित संग्रह
  • मालिकाना हक के फ़ॉर्मैट वाली फ़ाइल जिसमें डेटा शामिल होता है
  • फ़ाइलों का ऐसा संग्रह, जिनसे एक अच्छा डेटासेट तैयार हो सकता है
  • दूसरे किसी ऐसे फ़ॉर्मैट में व्यवस्थित ऑब्जेक्ट वाला डेटा, जिसे आप प्रोसेसिंग के लिए किसी खास टूल में लोड करना चाहेंगे
  • इमेज कैप्चर करने वाला डेटा
  • मशीन लर्निंग वाली फ़ाइलें, जैसे कि प्रशिक्षित पैरामीटर या न्यूरल नेटवर्क वाली व्यवस्था की परिभाषाएं
  • ऐसी कोई भी चीज़, जो आपको डेटासेट की तरह लगती हो

डेटासेट की खोज के लिए हमारा तरीका

हम समझ सकते हैं कि डेटासेट वाले वेब पेजों में व्यवस्थित डेटा के लिए, या तो schema.org डेटासेट मार्कअप या W3C के डेटा कैटलॉग शब्दावली (डीसीएटी) फ़ॉर्मैट में ऐसे दूसरे तरीकों का इस्तेमाल किया जाता है. हम W3C CSVW के आधार पर व्यवस्थित डेटा के लिए, प्रयोग के तौर पर सुविधाएं खोज रहे हैं और हमें उम्मीद है कि हम आगे भी बेहतर काम करते रहेंगे और डेटासेट की जानकारी देने के लिए सबसे अच्छे तरीके आज़माएंगे. डेटासेट की खोज करने के हमारे तरीके के बारे में ज़्यादा जानकारी के लिए, सबके लिए उपलब्ध डेटासेट को खोजना आसान बनाना देखें.

उदाहरण

'व्यवस्थित डेटा टेस्टिंग टूल' में JSON-LD सिंटैक्स (पसंदीदा) का इस्तेमाल करने वाले डेटासेट का उदाहरण देखें. आरडीएफ़ए 1.1, माइक्रोडेटा या W3C DCAT शब्दावली में भी वही शब्दावली इस्तेमाल की जा सकती है. नीचे दिया गया उदाहरण सामने मौजूद (रीयल वर्ल्ड) डेटासेट की जानकारी पर आधारित है.

JSON-LD

'व्यवस्थित डेटा टेस्टिंग टूल' का इस्तेमाल करने वाले JSON-LD में डेटासेट का उदाहरण देखें:

आरडीएफ़ए

'व्यवस्थित डेटा टेस्टिंग टूल' का इस्तेमाल करने वाले आरडीएफ़ए में डेटासेट का उदाहरण देखें:

दिशा-निर्देश

साइटों के लिए व्यवस्थित डेटा दिशा-निर्देशों का पालन किया जाना चाहिए. व्यवस्थित डेटा के दिशा-निर्देशों के अलावा, हम नीचे दिए गए इन साइटमैप और स्रोत और मूल जगह से जुड़े सबसे अच्छे तरीकों का सुझाव देते हैं.

साइटमैप इस्तेमाल करने के सबसे अच्छे तरीके

आपके यूआरएल ढूंढने में, Google की मदद करने के लिए साइटमैप फ़ाइल का इस्तेमाल करें. साइटमैप फ़ाइल और sameAs मार्कअप का इस्तेमाल करने से, आपकी साइट पर डेटासेट की जानकरी को प्रकाशित किए जाने का रिकॉर्ड तैयार करने में मदद मिलती है.

अगर आपके पास डेटासेट रिपॉज़िटरी (डेटा संग्रह की जगह) है, तो आपके पास कम से कम दो तरह के पेज हो सकते हैं: हर डेटासेट के लिए कैननिकल ("लैंडिंग") पेज और ऐसे पेज, जिनमें एक से ज़्यादा डेटासेट होते हैं (उदाहरण के लिए, खोज नतीजे या डेटासेट के कुछ सबसेट). हम सुझाव देते हैं कि आप कैननिकल पेज में डेटासेट के बारे में व्यवस्थित डेटा जोड़ें. अगर आप डेटासेट की एक से ज़्यादा कॉपी (जैसे कि खोज नतीजों वाले पेज में सूचियां) में व्यवस्थित डेटा जोड़ते हैं, तो आप कैननिकल पेज से लिंक करने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.

स्रोत और मूल जगह से जुड़े सबसे अच्छे तरीके

ओपन डेटासेट को फिर से प्रकाशित करना, इकट्ठा करना और दूसरे डेटासेट के आधार पर तैयार करना सामान्य बात है. यह स्थितियों को दिखाने के हमारे तरीके का सबसे ज़रूरी हिस्सा है, जिसमें एक डेटासेट को किसी दूसरे डेटासेट की कॉपी करके या दूसरे डेटासेट के आधार पर बनाया जाता है.

  • जब डेटासेट या उसके बारे में दी गई जानकारी कहीं और प्रकाशित हुई सामग्रियों की कॉपी के तौर पर हो, तो मूल डेटासेट के सबसे ज़्यादा कैननिकल यूआरएल दिखाने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.
  • ऐसे मामले जब फिर से प्रकाशित किए गए डेटासेट (उसके मेटाडेटा के साथ) में काफ़ी बदलाव किए गए हों, तब isBasedOn प्रॉपर्टी का इस्तेमाल करें.
  • जब डेटासेट के बारे में जानकारी कई मूल डेटासेट से ली गई हो या इकट्ठा की गई हो, तब isBasedOn प्रॉपर्टी का इस्तेमाल करें.
  • किसी भी संबंधित डिजिटल ऑब्जेक्ट आइडेंटीफ़ायर (डीओआई) को जोड़ने के लिए identifier प्रॉपर्टी का इस्तेमाल करें.

हमें उम्मीद है कि हम सुझावों के आधार पर अपने सुझावों को बेहतर बना लेंगे, खास तौर पर ऐसे सुझाव जो मूल जगह, वर्शन और टाइम सीरीज़ के प्रकाशन से जुड़ी तारीखों के बारे में हैं. कृपया समुदाय की चर्चा में शामिल हों.

ऐसी गड़बड़ियां और चेतावनियां, जिनके बारे में पहले से जानकारी हो

आपको Google के व्यवस्थित डेटा टेस्टिंग टूल और दूसरे पुष्टि के सिस्टम में गड़बड़ियां या चेतावनियां मिल सकती हैं. खास तौर पर, fileFormat (जिसका नाम हाल ही बदलकर encodingFormat रख दिया गया है) के बारे में चेतावनियों को पूरी तरह अनदेखा किया जा सकता है. पुष्टि करने वाले सिस्टम से यह सुझाव भी मिल सकता है कि संगठनों में contactType के साथ संपर्क जानकारी होनी चाहिए; उपयोगी मानों में customer service, emergency, journalist, newsroom और public engagement को शामिल किया जाना चाहिए. आप csvw:Table की गड़बड़ियों को mainEntity प्रॉपर्टी के अनचाहे मान के तौर पर अनदेखा भी कर सकते हैं.

व्यवस्थित डेटा के प्रकार की परिभाषाएं

रिच नतीजे के तौर पर दिखाने लायक बनाने के लिए, आपको अपनी सामग्री में ज़रूरी प्रॉपर्टी शामिल करनी होंगी. आप अपनी सामग्री के बारे में ज़्यादा जानकारी जोड़ने के लिए, सुझाई गई प्रॉपर्टी को भी शामिल कर सकते हैं. इससे उपयोगकर्ता अनुभव को बेहतर बनाया जा सकता है.

अपने मार्कअप की पुष्टि करने के लिए, आप Google के व्यवस्थित डेटा टेस्टिंग टूल का इस्तेमाल कर सकते हैं.

इसमें खास तौर पर डेटासेट (उसके मेटाडेटा) और संबंधित सामग्रियों के बारे में जानकारी देने पर ध्यान दिया जाता है. उदाहरण के लिए, डेटासेट के बारे में उसके मेटाडेटा में जानकारी दी जाती है, यह बताया जाता है कि यह क्या काम करता है, इसे किसने बनाया वगैरह. उदाहरण के लिए, इसमें वैरिएबल के लिए खास मान शामिल नहीं होते.

डेटासेट

Dataset की पूरी परिभाषा schema.org/Dataset पर मौजूद है.

आप डेटासेट को प्रकाशित करने के बारे में ज़्यादा जानकारी दे सकते हैं, जैसे इसका लाइसेंस, इसे प्रकाशित कब किया गया था, इसका डीओआई, या sameAs जो किसी अलग रिपोज़िटरी (डेटा संग्रह की जगह) में डेटासेट के कैननिकल वर्शन के बारे में जानकारी देता हो. मूल जगह और लाइसेंस की जानकारी देने वाले डेटासेट के लिए identifier, license, और sameAs.

ज़रूरी प्रॉपर्टी
description Text

डेटासेट के बारे में खास जानकारी.

name Text

डेटासेट के बारे में जानकारी देने वाला नाम. उदाहरण के लिए, "उत्तरी गोलर्ध में जमी बर्फ़ की मोटाई".

सुझाई गई प्रॉपर्टी
citation Text या CreativeWork

एक प्रकाशन का उद्धरण (सिटेशन), जिसमें डेटासेट के बारे में जानकारी दी जाती है. उदाहरण के लिए, "J.Smith 'How I created an awesome dataset', Journal of Data Science, 1966".

identifier URL, Text, या PropertyValue

डेटासेट की पहचान के लिए इस्तेमाल होने वाली जानकारी, जैसे कि डीओआई.

keywords Text

डेटासेट के बारे में खास जानकारी देने वाले कीवर्ड.

license URL, Text

वह लाइसेंस, जिसके ज़रिए डेटासेट उपलब्ध करवाया जाता है.

sameAs URL

ऐसे पेज का लिंक जिसमें एक जैसे डेटासेट के बारे में ज़्यादा जानकारी दी जाती है, आम तौर पर यह डेटासेट अलग रिपोज़िटरी (डेटा संग्रह की जगह) में उपलब्ध होता है.

spatialCoverage Text, Place

आप डेटासेट के बारे में जगह के मुताबिक एक साथ जानकारी दे सकते हैं. अगर डेटासेट के बारे में जगह के मुताबिक जानकारी उपलब्ध है, तो सिर्फ़़ इस प्रॉपर्टी को शामिल करें. उदाहरण के लिए, एक ही जगह पर माप से जुड़ी सारी जानकारी इकट्ठा करना या अलग-अलग आकार वाली जगहों को बाउंडिंग बॉक्स के ज़रिए दिखाना.

पॉइंट

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

निर्देशांक

अलग-अलग आकार वाली जगहों के बारे में जानकारी देने के लिए GeoShape का इस्तेमाल करें. उदाहरण के लिए, बाउंडिंग बॉक्स का इस्तेमाल करना.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

जगहों के नाम

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

डेटासेट में मौजूद डेटा, खास समय अंतराल को कवर करता है. अगर डेटासेट के बारे में समय के मुताबिक जानकारी उपलब्ध है, सिर्फ़ तभी इस प्रॉपर्टी को शामिल करें. Schema.org में आईएसओ 8601 मानक का इस्तेमाल करके समय अंतराल और किसी खास समय के बारे में जानकारी दी जाती है. आप डेटासेट के अंतराल के आधार पर, तारीखों के बारे में अलग-अलग तरह से जानकारी दे सकते हैं. दो दशमलव बिंदु (..), दो खुले अंतरालों के बारे में बताते हैं.

कोई एक तारीख

"temporalCoverage" : "2008"

समय अवधि

"temporalCoverage" : "1950-01-01/2013-12-18"

खुली समय अवधि

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

ऐसी चीज़ें, जिनके बारे में इस डेटासेट के ज़रिए जानकारी दी जाती है. उदाहरण के लिए, तापमान या दाब.

version Text, Number

डेटासेट की वर्शन संख्या.

url URL

डेटासेट के बारे में जानकारी देने वाले पेज की जगह.

DataCatalog

DataCatalog की पूरी परिभाषा schema.org/DataCatalog में दी गई है.

डेटासेट अक्सर रिपोज़िटरी (डेटा संग्रह की जगह) में प्रकाशित किए जाते हैं, जिनमें कई दूसरे डेटासेट शामिल होते हैं. एक ही डेटासेट को ऐसी एक से ज़्यादा रिपोज़िटरी (डेटा संग्रह की जगह) में शामिल किया जा सकता है. आप सीधे इस डेटासेट के बारे में जानकारी देकर, इसके डेटा कैटलॉग के बारे में जानकारी दे सकते हैं.

सुझाई गई प्रॉपर्टी
includedInDataCatalog DataCatalog

वह कैटलॉग, जिसमें यह डेटासेट शामिल होता है.

DataDownload

DataDownload की पूरी परिभाषा schema.org/DataDownload में दी गई है. डेटासेट की प्रॉपर्टी के अलावा, डेटासेट के लिए नीचे दी गई वे प्रॉपर्टी जोड़ें जिनसे डाउनलोड के विकल्प मिलते हैं.

distribution प्रॉपर्टी में यह बताया जाता है कि डेटासेट कहां से मिलेगा, क्योंकि अक्सर यूआरएल डेटासेट की जानकारी देने वाले लैंडिंग पेज पर ले जाता है. distribution प्रॉपर्टी में यह जानकारी दी जाती है कि डेटा कहां से और किस फ़ॉर्मैट में मिलेगा. इस प्रॉपर्टी में कई मान हो सकते हैं: उदाहरण के लिए, CSV वर्शन एक यूआरएल में मौजूद होता है और Excel वर्शन दूसरे यूआरएल में.

ज़रूरी प्रॉपर्टी
distribution.contentUrl URL

डाउनलोड करने के लिए लिंक.

प्रॉपर्टी
distribution DataDownload

डेटासेट को डाउनलोड करने की जगह और ऐसा करने के लिए फ़ाइल फ़ॉर्मैट की जानकारी.

distribution.fileFormat Text

डेटासेट उपलब्ध करवाने के लिए फ़ाइल का फ़ॉर्मैट.

टेबल के तौर पर डेटासेट

टेबल के तौर पर दिए गए डेटासेट को खास तौर पर पंक्तियों और कॉलम के ग्रिड की तरह व्यवस्थित किया जाता है. टेबल के तौर पर डेटासेट एम्बेड करने वाले पेजों के लिए, आप ऊपर बताए गए मूल तरीके के आधार पर ज़्यादा जानकारी वाला मार्कमप भी तैयार कर सकते हैं. इस समय हम एचटीएमएल पेज पर टेबल के तौर पर दी गई उपयोगकर्ता से जुड़ी सामग्री के साथ CSVW ("वेब पर उपलब्ध CSV", W3C देखें) के अलग-अलग प्रकार को समझते हैं.

CSVW JSON-LD फ़ॉर्मैट में एन्कोड किए गए टेबल का उदाहरण देखें. 'व्यवस्थित डेटा टेस्टिंग टूल' में कुछ ऐसी गड़बड़ियां हैं, जिनके बारे में पहले से जानकारी है.

सहायता और टूल

निम्न के बारे में फ़ीडबैक भेजें...