डेटासेट के बारे में व्यवस्थित डेटा के तौर पर जानकारी देने जैसे कि उसका नाम, उसे बनाने वाले का नाम, उसे बाँटने का तरीका और उसके बारे में कुछ बताने से उसे ढूंढना आसान हो जाता है. डेटासेट को खोजने के Google के तरीके में schema.org और उन दूसरे मेटाडेटा मानकों का इस्तेमाल करना शामिल है, जिन्हें डेटा की जानकारी देने वाले पेजों में जोड़ा जा सकता है. इस मार्कअप का उद्देश्य जीवन विज्ञान, सामाजिक विज्ञान, मशीन लर्निंग, नागरिक और सरकारी डेटा वगैरह जैसे फ़ील्ड से डेटा की खोज को बेहतर बनाना है.
यहां पर ऐसी चीज़ों के कुछ उदाहरण दिए गए हैं, जो डेटासेट हो सकती हैं:
- कुछ डेटा के साथ टेबल या CSV फ़ाइल
- टेबल का व्यवस्थित संग्रह
- मालिकाना हक के फ़ॉर्मैट वाली फ़ाइल जिसमें डेटा शामिल होता है
- फ़ाइलों का ऐसा संग्रह, जिनसे एक अच्छा डेटासेट तैयार हो सकता है
- दूसरे किसी ऐसे फ़ॉर्मैट में व्यवस्थित ऑब्जेक्ट वाला डेटा, जिसे आप प्रोसेसिंग के लिए किसी खास टूल में लोड करना चाहेंगे
- इमेज कैप्चर करने वाला डेटा
- मशीन लर्निंग वाली फ़ाइलें, जैसे कि प्रशिक्षित पैरामीटर या न्यूरल नेटवर्क वाली व्यवस्था की परिभाषाएं
- ऐसी कोई भी चीज़, जो आपको डेटासेट की तरह लगती हो
डेटासेट की खोज के लिए हमारा तरीका
हम समझ सकते हैं कि डेटासेट वाले वेब पेजों में व्यवस्थित डेटा के लिए, या तो schema.org डेटासेट मार्कअप या W3C के डेटा कैटलॉग शब्दावली (डीसीएटी) फ़ॉर्मैट में ऐसे दूसरे तरीकों का इस्तेमाल किया जाता है. हम W3C CSVW के आधार पर व्यवस्थित डेटा के लिए, प्रयोग के तौर पर सुविधाएं खोज रहे हैं और हमें उम्मीद है कि हम आगे भी बेहतर काम करते रहेंगे और डेटासेट की जानकारी देने के लिए सबसे अच्छे तरीके आज़माएंगे. डेटासेट की खोज करने के हमारे तरीके के बारे में ज़्यादा जानकारी के लिए, सबके लिए उपलब्ध डेटासेट को खोजना आसान बनाना देखें.
उदाहरण
'व्यवस्थित डेटा टेस्टिंग टूल' में JSON-LD सिंटैक्स (पसंदीदा) का इस्तेमाल करने वाले डेटासेट का उदाहरण देखें. आरडीएफ़ए 1.1, माइक्रोडेटा या W3C DCAT शब्दावली में भी वही शब्दावली इस्तेमाल की जा सकती है. नीचे दिया गया उदाहरण सामने मौजूद (रीयल वर्ल्ड) डेटासेट की जानकारी पर आधारित है.
'व्यवस्थित डेटा टेस्टिंग टूल' का इस्तेमाल करने वाले JSON-LD में डेटासेट का उदाहरण देखें:
'व्यवस्थित डेटा टेस्टिंग टूल' का इस्तेमाल करने वाले आरडीएफ़ए में डेटासेट का उदाहरण देखें:
दिशा-निर्देश
साइटों के लिए व्यवस्थित डेटा दिशा-निर्देशों का पालन किया जाना चाहिए. व्यवस्थित डेटा के दिशा-निर्देशों के अलावा, हम नीचे दिए गए इन साइटमैप और स्रोत और मूल जगह से जुड़े सबसे अच्छे तरीकों का सुझाव देते हैं.
साइटमैप इस्तेमाल करने के सबसे अच्छे तरीके
आपके यूआरएल ढूंढने में, Google की मदद करने के लिए साइटमैप फ़ाइल का इस्तेमाल करें. साइटमैप फ़ाइल और sameAs मार्कअप का इस्तेमाल करने से, आपकी साइट पर डेटासेट की जानकरी को प्रकाशित किए जाने का रिकॉर्ड तैयार करने में मदद मिलती है.
अगर आपके पास डेटासेट रिपॉज़िटरी (डेटा संग्रह की जगह) है, तो आपके पास कम से कम दो तरह के पेज हो सकते हैं: हर डेटासेट के लिए कैननिकल ("लैंडिंग") पेज और ऐसे पेज, जिनमें एक से ज़्यादा डेटासेट होते हैं (उदाहरण के लिए, खोज नतीजे या डेटासेट के कुछ सबसेट). हम सुझाव देते हैं कि आप कैननिकल पेज में डेटासेट के बारे में व्यवस्थित डेटा जोड़ें. अगर आप डेटासेट की एक से ज़्यादा कॉपी (जैसे कि खोज नतीजों वाले पेज में सूचियां) में व्यवस्थित डेटा जोड़ते हैं, तो आप कैननिकल पेज से लिंक करने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.
स्रोत और मूल जगह से जुड़े सबसे अच्छे तरीके
ओपन डेटासेट को फिर से प्रकाशित करना, इकट्ठा करना और दूसरे डेटासेट के आधार पर तैयार करना सामान्य बात है. यह स्थितियों को दिखाने के हमारे तरीके का सबसे ज़रूरी हिस्सा है, जिसमें एक डेटासेट को किसी दूसरे डेटासेट की कॉपी करके या दूसरे डेटासेट के आधार पर बनाया जाता है.
- जब डेटासेट या उसके बारे में दी गई जानकारी कहीं और प्रकाशित हुई सामग्रियों की कॉपी के तौर पर हो, तो मूल डेटासेट के सबसे ज़्यादा कैननिकल यूआरएल दिखाने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.
- ऐसे मामले जब फिर से प्रकाशित किए गए डेटासेट (उसके मेटाडेटा के साथ) में काफ़ी बदलाव किए गए हों, तब
isBasedOnप्रॉपर्टी का इस्तेमाल करें. - जब डेटासेट के बारे में जानकारी कई मूल डेटासेट से ली गई हो या इकट्ठा की गई हो, तब
isBasedOnप्रॉपर्टी का इस्तेमाल करें. - किसी भी संबंधित डिजिटल ऑब्जेक्ट आइडेंटीफ़ायर (डीओआई) को जोड़ने के लिए
identifierप्रॉपर्टी का इस्तेमाल करें.
हमें उम्मीद है कि हम सुझावों के आधार पर अपने सुझावों को बेहतर बना लेंगे, खास तौर पर ऐसे सुझाव जो मूल जगह, वर्शन और टाइम सीरीज़ के प्रकाशन से जुड़ी तारीखों के बारे में हैं. कृपया समुदाय की चर्चा में शामिल हों.
ऐसी गड़बड़ियां और चेतावनियां, जिनके बारे में पहले से जानकारी हो
आपको Google के व्यवस्थित डेटा टेस्टिंग टूल और दूसरे पुष्टि के सिस्टम में गड़बड़ियां या चेतावनियां मिल सकती हैं. खास तौर पर, fileFormat (जिसका नाम हाल ही बदलकर encodingFormat रख दिया गया है) के बारे में चेतावनियों को पूरी तरह अनदेखा किया जा सकता है.
पुष्टि करने वाले सिस्टम से यह सुझाव भी मिल सकता है कि संगठनों में contactType के साथ संपर्क जानकारी होनी चाहिए; उपयोगी मानों में customer service, emergency, journalist, newsroom और public engagement को शामिल किया जाना चाहिए.
आप csvw:Table की गड़बड़ियों को mainEntity प्रॉपर्टी के अनचाहे मान के तौर पर अनदेखा भी कर सकते हैं.
व्यवस्थित डेटा के प्रकार की परिभाषाएं
रिच नतीजे के तौर पर दिखाने लायक बनाने के लिए, आपको अपनी सामग्री में ज़रूरी प्रॉपर्टी शामिल करनी होंगी. आप अपनी सामग्री के बारे में ज़्यादा जानकारी जोड़ने के लिए, सुझाई गई प्रॉपर्टी को भी शामिल कर सकते हैं. इससे उपयोगकर्ता अनुभव को बेहतर बनाया जा सकता है.
अपने मार्कअप की पुष्टि करने के लिए, आप Google के व्यवस्थित डेटा टेस्टिंग टूल का इस्तेमाल कर सकते हैं.
इसमें खास तौर पर डेटासेट (उसके मेटाडेटा) और संबंधित सामग्रियों के बारे में जानकारी देने पर ध्यान दिया जाता है. उदाहरण के लिए, डेटासेट के बारे में उसके मेटाडेटा में जानकारी दी जाती है, यह बताया जाता है कि यह क्या काम करता है, इसे किसने बनाया वगैरह. उदाहरण के लिए, इसमें वैरिएबल के लिए खास मान शामिल नहीं होते.
डेटासेट
Dataset की पूरी परिभाषा schema.org/Dataset पर मौजूद है.
आप डेटासेट को प्रकाशित करने के बारे में ज़्यादा जानकारी दे सकते हैं, जैसे इसका लाइसेंस, इसे प्रकाशित कब किया गया था, इसका डीओआई, या sameAs जो किसी अलग रिपोज़िटरी (डेटा संग्रह की जगह) में डेटासेट के कैननिकल वर्शन के बारे में जानकारी देता हो. मूल जगह और लाइसेंस की जानकारी देने वाले डेटासेट के लिए identifier, license, और sameAs.
| ज़रूरी प्रॉपर्टी | |
|---|---|
description
|
Text
डेटासेट के बारे में खास जानकारी. |
name
|
Text
डेटासेट के बारे में जानकारी देने वाला नाम. उदाहरण के लिए, "उत्तरी गोलर्ध में जमी बर्फ़ की मोटाई". |
| सुझाई गई प्रॉपर्टी | |
|---|---|
citation
|
Text या CreativeWork
एक प्रकाशन का उद्धरण (सिटेशन), जिसमें डेटासेट के बारे में जानकारी दी जाती है. उदाहरण के लिए, "J.Smith 'How I created an awesome dataset', Journal of Data Science, 1966". |
identifier
|
URL, Text, या PropertyValue
डेटासेट की पहचान के लिए इस्तेमाल होने वाली जानकारी, जैसे कि डीओआई. |
keywords
|
Text
डेटासेट के बारे में खास जानकारी देने वाले कीवर्ड. |
license
|
URL, Text
वह लाइसेंस, जिसके ज़रिए डेटासेट उपलब्ध करवाया जाता है. |
sameAs
|
URL
ऐसे पेज का लिंक जिसमें एक जैसे डेटासेट के बारे में ज़्यादा जानकारी दी जाती है, आम तौर पर यह डेटासेट अलग रिपोज़िटरी (डेटा संग्रह की जगह) में उपलब्ध होता है. |
spatialCoverage |
Text, Place
आप डेटासेट के बारे में जगह के मुताबिक एक साथ जानकारी दे सकते हैं. अगर डेटासेट के बारे में जगह के मुताबिक जानकारी उपलब्ध है, तो सिर्फ़़ इस प्रॉपर्टी को शामिल करें. उदाहरण के लिए, एक ही जगह पर माप से जुड़ी सारी जानकारी इकट्ठा करना या अलग-अलग आकार वाली जगहों को बाउंडिंग बॉक्स के ज़रिए दिखाना. पॉइंट "spatialCoverage:" {
"@type": "Place",
"geo": {
"@type": "GeoCoordinates",
"latitude": 39.3280,
"longitude": 120.1633
}
}
निर्देशांक अलग-अलग आकार वाली जगहों के बारे में जानकारी देने के लिए GeoShape का इस्तेमाल करें. उदाहरण के लिए, बाउंडिंग बॉक्स का इस्तेमाल करना. "spatialCoverage:" {
"@type": "Place",
"geo": {
"@type": "GeoShape",
"box": "39.3280 120.1633 40.445 123.7878"
}
}
जगहों के नाम "spatialCoverage:" "Tahoe City, CA" |
temporalCoverage |
Text
डेटासेट में मौजूद डेटा, खास समय अंतराल को कवर करता है. अगर डेटासेट के बारे में समय के मुताबिक जानकारी उपलब्ध है, सिर्फ़ तभी इस प्रॉपर्टी को शामिल करें. Schema.org में आईएसओ 8601 मानक का इस्तेमाल करके समय अंतराल और किसी खास समय के बारे में जानकारी दी जाती है. आप डेटासेट के अंतराल के आधार पर, तारीखों के बारे में अलग-अलग तरह से जानकारी दे सकते हैं. दो दशमलव बिंदु ( कोई एक तारीख "temporalCoverage" : "2008" समय अवधि "temporalCoverage" : "1950-01-01/2013-12-18" खुली समय अवधि "temporalCoverage" : "2013-12-19/.." |
variableMeasured
|
Text, PropertyValue
ऐसी चीज़ें, जिनके बारे में इस डेटासेट के ज़रिए जानकारी दी जाती है. उदाहरण के लिए, तापमान या दाब. |
version
|
Text, Number
डेटासेट की वर्शन संख्या. |
url
|
URL
डेटासेट के बारे में जानकारी देने वाले पेज की जगह. |
DataCatalog
DataCatalog की पूरी परिभाषा schema.org/DataCatalog में दी गई है.
डेटासेट अक्सर रिपोज़िटरी (डेटा संग्रह की जगह) में प्रकाशित किए जाते हैं, जिनमें कई दूसरे डेटासेट शामिल होते हैं. एक ही डेटासेट को ऐसी एक से ज़्यादा रिपोज़िटरी (डेटा संग्रह की जगह) में शामिल किया जा सकता है. आप सीधे इस डेटासेट के बारे में जानकारी देकर, इसके डेटा कैटलॉग के बारे में जानकारी दे सकते हैं.
| सुझाई गई प्रॉपर्टी | |
|---|---|
includedInDataCatalog
|
DataCatalog
वह कैटलॉग, जिसमें यह डेटासेट शामिल होता है.
|
DataDownload
DataDownload की पूरी परिभाषा schema.org/DataDownload में दी गई है. डेटासेट की प्रॉपर्टी के अलावा, डेटासेट के लिए नीचे दी गई वे प्रॉपर्टी जोड़ें जिनसे डाउनलोड के विकल्प मिलते हैं.
distribution प्रॉपर्टी में यह बताया जाता है कि डेटासेट कहां से मिलेगा, क्योंकि अक्सर यूआरएल डेटासेट की जानकारी देने वाले लैंडिंग पेज पर ले जाता है. distribution प्रॉपर्टी में यह जानकारी दी जाती है कि डेटा कहां से और किस फ़ॉर्मैट में मिलेगा. इस प्रॉपर्टी में कई मान हो सकते हैं: उदाहरण के लिए, CSV वर्शन एक यूआरएल में मौजूद होता है और Excel वर्शन दूसरे यूआरएल में.
| ज़रूरी प्रॉपर्टी | |
|---|---|
distribution.contentUrl
|
URL
डाउनलोड करने के लिए लिंक. |
| प्रॉपर्टी | |
|---|---|
distribution
|
DataDownload
डेटासेट को डाउनलोड करने की जगह और ऐसा करने के लिए फ़ाइल फ़ॉर्मैट की जानकारी.
|
distribution.fileFormat
|
Text
डेटासेट उपलब्ध करवाने के लिए फ़ाइल का फ़ॉर्मैट.
|
टेबल के तौर पर डेटासेट
टेबल के तौर पर दिए गए डेटासेट को खास तौर पर पंक्तियों और कॉलम के ग्रिड की तरह व्यवस्थित किया जाता है. टेबल के तौर पर डेटासेट एम्बेड करने वाले पेजों के लिए, आप ऊपर बताए गए मूल तरीके के आधार पर ज़्यादा जानकारी वाला मार्कमप भी तैयार कर सकते हैं. इस समय हम एचटीएमएल पेज पर टेबल के तौर पर दी गई उपयोगकर्ता से जुड़ी सामग्री के साथ CSVW ("वेब पर उपलब्ध CSV", W3C देखें) के अलग-अलग प्रकार को समझते हैं.
CSVW JSON-LD फ़ॉर्मैट में एन्कोड किए गए टेबल का उदाहरण देखें. 'व्यवस्थित डेटा टेस्टिंग टूल' में कुछ ऐसी गड़बड़ियां हैं, जिनके बारे में पहले से जानकारी है.
सहायता और टूल
- Google के व्यवस्थित डेटा मार्कअप सहायक से डेटासेट मार्कअप में मदद मिल सकती है.
- व्यवस्थित डेटा के लिए Google वेबमास्टर केंद्र सहायता फ़ोरम एक समुदाय फ़ोरम उपलब्ध करवाता है, जहां आप व्यवस्थित डेटा (डेटासेट के साथ) के बारे में सवाल (और जवाब) पूछ सकते है और हमारे डेटासेट के बारे में अक्सर पूछे जाने वाले सवालों की समीक्षा कर सकते हैं.