डेटासेट

डेटासेट के बारे में अलग से दूसरी जानकारी देने पर उन्हें ढूंढना आसान हो जाता है. यह दूसरी जानकारी स्ट्रक्चर्ड डेटा के रूप में उनके नाम, ब्यौरे, क्रिएटर और बँटवारे के फ़ॉर्मैट दी जाती है. Google डेटासेट खोजने के अपने तरीके में schema.org और उन दूसरे मेटाडेटा मानकों का इस्तेमाल करता है, जिन्हें डेटासेट की जानकारी देने वाले पेजों में जोड़ा जा सकता है. इस मार्कअप का मकसद चिकित्सा विज्ञान, सामाजिक विज्ञान, मशीन लर्निंग, नागरिक और सरकारी डेटा वगैरह जैसे फ़ील्ड से डेटासेट खोजने की सुविधा को बेहतर बनाना है.

यहां कुछ ऐसी चीज़ों के उदाहरण दिए गए हैं, जिन्हें डेटासेट के तौर पर इस्तेमाल किया जा सकता है:

  • कुछ डेटा वाली टेबल या CSV फ़ाइल
  • टेबल का व्यवस्थित संग्रह
  • मालिकाना फ़ॉर्मैट में ऐसी फ़ाइल जिसमें डेटा मौजूद हो
  • फ़ाइलों का ऐसा संग्रह, जो एक साथ मिलकर कुछ बेहतर डेटासेट तैयार कर सके
  • किसी दूसरे फ़ॉर्मैट में मौजूद डेटा वाला ऐसा स्ट्रक्चर्ड ऑब्जेक्ट जिसे प्रॉसेस करने के लिए आप शायद किसी खास टूल में लोड करना चाहें
  • इमेज कैप्चर करने वाला डेटा
  • मशीन लर्निंग से जुड़ी फ़ाइलें, जैसे, तैयार किए गए पैरामीटर या न्यूरल नेटवर्क स्ट्रक्चर की परिभाषाएं
  • ऐसी कोई भी चीज़, जो आपको डेटासेट की तरह लगती हो

डेटासेट खोजने का हमारा तरीका

हम डेटासेट के बारे में वेब पेजों पर मौजूद डेटा को समझ सकते हैं. इसे समझने के लिए हम schema.org डेटासेट मार्कअप, या W3C के डेटा कैटलॉग वोकैब्युलरी (DCAT) फ़ॉर्मैट में पेश किए गए उसी के जैसे स्ट्रक्चर का इस्तेमाल करते हैं. हम W3C CSVW के आधार पर स्ट्रक्चर्ड डेटा के लिए प्रयोग के तौर पर सुविधाओं की खोज भी कर रहे हैं. हम डेटासेट की जानकारी देने के लिए और भी बेहतर काम करने के साथ ही, हमारे तरीके को सबसे अच्छे तरीके के तौर पर अपनाए जाने की उम्मीद करते हैं. डेटासेट खोजने के हमारे तरीके के बारे में ज़्यादा जानकारी के लिए, सबके लिए उपलब्ध डेटासेट की खोज आसान बनाना देखें.

उदाहरण

स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल में JSON-LD सिंटेक्स (पसंदीदा) का इस्तेमाल करने वाले डेटासेट का एक उदाहरण यहां दिया गया है. RDFa 1.1, माइक्रोडेटा या W3C डीसीएटी के शब्दों में भी उसी शब्द वाले फ़ॉर्मैट का इस्तेमाल किया जा सकता है. नीचे दिया गया उदाहरण असली डेटासेट की जानकारी पर आधारित है.

JSON-LD

यहां JSON-LD में डेटासेट का एक उदाहरण दिया गया है:

RDFa

यहां RDFa में डेटासेट का एक उदाहरण दिया गया है:

दिशा-निर्देश

साइटों के लिए स्ट्रक्चर्ड डेटा के दिशानिर्देशों का पालन करना चाहिए. स्ट्रक्चर्ड डेटा के दिशा-निर्देशों के अलावा, हम नीचे दिए गए इन साइटमैप और स्रोत और मूल जगह के सबसे अच्छे तरीके अपनाने का सुझाव देते हैं.

साइटमैप इस्तेमाल करने के सबसे अच्छे तरीके

साइटमैप फ़ाइल का इस्तेमाल करें, ताकि Google को आपके यूआरएल ढूंढने में मदद मिल सके. साइटमैप फ़ाइल और sameAs मार्कअप का इस्तेमाल करने से, आपकी साइट पर डेटासेट की जानकरी प्रकाशित करने का रिकॉर्ड रखने में मदद मिलती है.

अगर आपके पास डेटासेट रिपॉज़िटरी (डेटा संग्रह की जगह) है, तो आपके पास कम से कम दो तरह के पेज हो सकते हैं: हर डेटासेट के लिए कैननिकल ("लैंडिंग") पेज और एक से ज़्यादा डेटासेट वाले पेज (जैसे कि, खोज नतीजे या डेटासेट के कुछ सबसेट). हमारा सुझाव है कि आप कैननिकल पेज में डेटासेट के बारे में स्ट्रक्चर्ड डेटा जोड़ें. अगर आप डेटासेट की एक से ज़्यादा कॉपी में स्ट्रक्चर्ड डेटा (यानी खोज नतीजों के पेज में सूचियां) जोड़ते हैं, तो कैननिकल पेज से लिंक करने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.

स्रोत और मूल जगह के लिए सबसे अच्छे तरीके

खुले डेटासेट को फिर से प्रकाशित करना, इकट्ठा करना, और दूसरे डेटासेट के आधार पर तैयार करना सामान्य बात है. यह स्थितियों को दिखाने के हमारे तरीके का शुरुआती हिस्सा है. इसमें डेटासेट को किसी दूसरे डेटासेट की कॉपी करके या दूसरे डेटासेट के आधार पर अलग तरीके से बनाया जाता है.

  • जब डेटासेट या दी गई जानकारी को कहीं और प्रकाशित की गई सामग्रियों की कॉपी करके फिर से प्रकाशित करना हो, तो मूल डेटासेट के सबसे ज़्यादा कैननिकल यूआरएल दिखाने के लिए sameAs प्रॉपर्टी का इस्तेमाल करें.
  • अगर फिर से प्रकाशित किए गए डेटासेट (और उसके मेटाडेटा) में बहुत सारे बदलाव किए गए हैं, तो isBasedOn प्रॉपर्टी का इस्तेमाल करें.
  • जब डेटासेट के बारे में जानकारी कई मूल डेटासेट से ली गई हो या इकट्ठा की गई हो, तो isBasedOn प्रॉपर्टी का इस्तेमाल करें.
  • किसी भी ज़रूरी डिजिटल ऑब्जेक्ट पहचानकर्ता (डीओआई) या संक्षिप्त पहचानकर्ता को अटैच करने के लिए, identifier प्रॉपर्टी का इस्तेमाल करें. अगर डेटासेट में एक से ज़्यादा पहचानकर्ता हैं, तो identifier प्रॉपर्टी एक से ज़्यादा बार इस्तेमाल करें. अगर JSON-LD का इस्तेमाल कर रहे हैं, तो यह JSON सूची के सिंटैक्स का इस्तेमाल करके दिखाया गया है.

हम सुझावों के आधार पर अपनी सलाह को बेहतर बनाने की उम्मीद करते हैं. खास तौर पर ऐसे सुझाव जो मूल जगह, वर्शन, और टाइम सीरीज़ के प्रकाशन से जुड़ी तारीखों की जानकारी के बारे में हैं. कृपया समुदाय की चर्चाओं में शामिल हों.

टेक्स्ट प्रॉपर्टी के लिए सुझाव

हम टेक्स्ट वाली सभी प्रॉपर्टी को 5000 या इससे कम वर्णों तक सीमित रखने का सुझाव देते हैं. 'Google डेटासेट सर्च' किसी भी टेक्स्ट वाली प्रॉपर्टी के पहले 5000 वर्णों का ही इस्तेमाल करता है. नाम और शीर्षक आम तौर पर कुछ शब्दों के या एक छोटे वाक्य के होते हैं.

पहले से जानकारी वाली गड़बड़ियां और चेतावनियां

आपको Google के स्ट्रक्चर्ड डेटा टेस्टिंग टूल और पुष्टि के दूसरे सिस्टम में गड़बड़ियां या चेतावनियां मिल सकती हैं. पुष्टि करने वाले सिस्टम यह सुझाव भी दे सकते हैं कि संगठनों में contactTypeके साथ ही संपर्क जानकारी भी होनी चाहिए. इसके उपयोगी मानों में customer service, emergency, journalist, newsroom, और public engagement को शामिल किया जाना चाहिए. आप csvw:Table की गड़बड़ियों को mainEntity प्रॉपर्टी के अनचाहे मान के तौर पर अनदेखा भी कर सकते हैं.

स्ट्रक्चर्ड डेटा के प्रकार की परिभाषाएं

अपनी सामग्री रिच नतीजे के तौर पर दिखाई दे, इसके लिए आपको ज़रूरी विशेषताएं जोड़नी होंगी. अपनी सामग्री के बारे में ज़्यादा जानकारी जोड़ने के लिए, आप सुझाई गई प्रॉपर्टी भी शामिल कर सकते हैं. इससे इस्तेमाल करने वाले के अनुभव को बेहतर बनाया जा सकता है.

अपने मार्कअप की पुष्टि करने के लिए, आप स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल का इस्तेमाल कर सकते हैं.

इसमें डेटासेट (उसके मेटाडेटा) और उसकी सामग्रियों को दिखाने के बारे में जानकारी देने पर खास तौर से ध्यान दिया जाता है. जैसे कि, डेटासेट का मेटाडेटा उसके बारे में जानकारी देता है. इससे पता चलता है कि यह किस वैरिएबल के लिए काम करता है, इसे किसने बनाया है वगैरह. यानी, इसमें वैरिएबल के लिए खास मान शामिल नहीं होते हैं.

डेटासेट

Dataset की पूरी जानकारी schema.org/Dataset पर मौजूद है.

आप डेटासेट के प्रकाशन के बारे में ज़्यादा जानकारी दे सकते हैं, जैसे कि लाइसेंस, प्रकाशित करने की तारीख, इसका डीओआई या किसी अलग रिपॉज़िटरी (डेटा संग्रह की जगह) में डेटासेट के कैननिकल वर्शन के बारे में बताने वाली sameAs प्रॉपर्टी. मूल जगह और लाइसेंस की जानकारी देने वाले डेटासेट के लिए identifier, license, और sameAs जोड़ें.

ज़रूरी प्रॉपर्टी
description Text

डेटासेट के बारे में कम शब्दों में खास जानकारी.

दिशा-निर्देश

  • यह जानकारी 50 से 5000 वर्णों की होनी चाहिए.
  • जानकारी में मार्कडाउन सिंटैक्स शामिल हो सकता है. एम्बेड की गई इमेज के लिए सही यूआरएल का पाथ इस्तेमाल किया जाना चाहिए (बजाय इसके कि इमेज से सही यूआरएल पाथ की जगह उससे मिलते-जुलते पाथ का इस्तेमाल किया जाए).
  • JSON-LD फ़ॉर्मैट का इस्तेमाल करने पर, नई पंक्ति की शुरुआत में \n (दो वर्ण: बैकस्लैश और लोअर केस में अंग्रेजी का वर्ण "n") का इस्तेमाल करें.
name Text

डेटासेट की जानकारी देने वाला नाम. जैसे कि, "उत्तरी गोलार्ध में बर्फ़ की मोटाई".

सुझाई गई प्रॉपर्टी
alternateName Text

इस डेटासेट के बारे में जानकारी देने वाले वैकल्पिक नाम, जैसे कि उपनाम या छोटा नाम. उदाहरण (JSON-LD फ़ॉर्मैट में):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person या Organization

यह डेटासेट बनाने वाला. व्यक्ति की खास पहचान करने के लिए, Person प्रकार की sameAs प्रॉपर्टी के मान में ORCID ID का इस्तेमाल करें. संस्थानों और संगठनों की खास पहचान करने के लिए, JSON-LD फ़ॉर्मैट में ROR ID का इस्तेमाल करें:

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text या CreativeWork

शैक्षणिक लेखों की पहचान करता है जिसका सुझाव डेटा उपलब्ध कराने वाले व्यक्ति ने दिया हो. इसका मकसद उपयोगकर्ताओं को डेटासेट के साथ इन लेखों का सुझाव देना है. name, identifier, creator, और publisher जैसी दूसरी प्रॉपर्टी के साथ डेटासेट के बारे में ज़्यादा जानकारी दें. उदाहरण के लिए, इस प्रॉपर्टी में डेटासेट से मिलते-जुलते खास शैक्षणिक प्रकाशन के बारे में जानकारी दी जा सकती है. जैसे, डेटा की जानकारी देने वाला दस्तावेज़, डेटा पेपर या ऐसा लेख जिससे डेटासेट को बेहतर तरीके से समझा जा सके. उदाहरण (JSON-LD फ़ॉर्मैट में):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

दूसरे दिशा-निर्देश

  • डेटासेट के बारे में उद्धरण की जानकारी देने के लिए इस प्रॉपर्टी का इस्तेमाल न करें. इस प्रॉपर्टी का मकसद डेटासेट से मिलते-जुलते शैक्षणिक लेखों को पहचानना है, न कि डेटासेट के बारे में जानकारी देना. डेटासेट को बेहतर तरीके से समझने के लिए ज़रूरी जानकारी देना हमेशा बेहतर होता है. इसके लिए, आप name, identifier, creator, और publisher प्रॉपर्टी का इस्तेमाल कर सकते हैं.
  • उद्धरण प्रॉपर्टी में उद्धरण स्निपेट डालते समय, जहां भी हो सके वहां लेख की पहचान करने वाली जानकारी (जैसे डीओआई) ज़रूर दें.

    ऐसा करने का सुझाव दिया जाता है: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    ऐसा करने का सुझाव नहीं दिया जाता: "Doe J (2014) Influence of X. Biomics 1(1)."

identifier URL, Text या PropertyValue

एक आइडेंटिफ़ायर, जैसे डीओआई या कॉम्पैक्ट आइडेंटिफ़ायर. अगर डेटासेट में एक से ज़्यादा आइडेंटिफ़ायर हैं, तो identifier प्रॉपर्टी दो बार इस्तेमाल करें. अगर JSON-LD का इस्तेमाल कर रहे हैं, तो यहां JSON सूची के सिंटैक्स का इस्तेमाल करके दिखाया गया है.

keywords Text

डेटासेट की खास जानकारी देने वाले कीवर्ड.

license URL, CreativeWork

वह लाइसेंस जिसके ज़रिए डेटासेट उपलब्ध कराया जाता है. उदाहरण के लिए:

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

एक जैसे डेटासेट के बारे में ज़्यादा जानकारी देने वाले पेज का लिंक. आम तौर पर, यह किसी अलग रिपॉज़िटरी (डेटा संग्रह की जगह) में मौजूद होता है.

spatialCoverage Text, जगह

आप डेटासेट की जगह संबंधी जानकारी एक ही स्थान पर मुहैया करा सकते हैं. अगर डेटासेट में जगह की जानकारी दी गई है, तो ही इस प्रॉपर्टी को शामिल करें. जैसे कि, ऐसी एक जगह जहां इकट्ठी की गई माप की सारी जानकारियां या किसी जगह के लिए बाउंडिंग बॉक्स की जगह की जानकारी मौजूद हो.

पॉइंट

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

आकार

अलग-अलग आकार वाली जगहों के बारे में जानकारी देने के लिए GeoShape का इस्तेमाल करें. जैसे कि, बाउंडिंग बॉक्स बताने के लिए.

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

box, circle, line या polygon प्रॉपर्टी में दिए गए पॉइंट में अक्षांश और देशांतर (इसी क्रम में) के हिसाब से दो मानों के जोड़े को स्पेस से अलग करके दिखाया जाना चाहिए.

जगहों के नाम

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

डेटासेट के डेटा में समय अंतराल की खास जानकारी शामिल होती है. अगर डेटासेट में समय की जानकारी दी गई है, तो ही इस प्रॉपर्टी को शामिल करें. Schema.org में आईएसओ ISO 8601 मानक का इस्तेमाल करके समय अंतरालों और किसी खास समय के बारे में जानकारी दी जाती है. आप डेटासेट में दिए अंतराल के आधार पर, तारीखों के बारे में अलग-अलग तरह से जानकारी दे सकते हैं. समय के दो खुले अंतरालों के बारे में बताने के लिए दो दशमलव बिंदुओं (..) का इस्तेमाल किया जाता है.

कोई एक तारीख

"temporalCoverage" : "2008"

समयावधि

"temporalCoverage" : "1950-01-01/2013-12-18"

खुली समय अवधि

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

ऐसा वैरिएबल जिसकी जानकारी यह डेटासेट देता है. जैसे कि, तापमान या दबाव.

version Text, Number

डेटासेट का वर्शन नंबर.

url URL

डेटासेट के बारे में जानकारी देने वाले पेज की जगह.

DataCatalog

DataCatalog की पूरी जानकारी schema.org/DataCatalog पर मौजूद है.

डेटासेट अक्सर रिपोज़िटरी (डेटा संग्रह की जगह) में प्रकाशित किए जाते हैं. यहां पर कई दूसरे डेटासेट भी मौजूद होते हैं. एक ही डेटासेट को ऐसी एक से ज़्यादा रिपोज़िटरी (डेटा संग्रह की जगह) में शामिल किया जा सकता है. आप सीधे इस डेटासेट की जानकारी देते हुए इसके डेटा कैटलॉग के बारे में बता सकते हैं.

सुझाई गई प्रॉपर्टी
includedInDataCatalog DataCatalog

वह कैटलॉग जिससे यह डेटासेट जुड़ा है.

DataDownload

DataDownload की पूरी जानकारी schema.org/DataDownload पर मौजूद है. डेटासेट की प्रॉपर्टी के अलावा, डेटासेट के लिए नीचे बताई गई वे प्रॉपर्टी जोड़ें जो डाउनलोड के विकल्प मुहैया कराती हैं.

distribution प्रॉपर्टी, डेटासेट पाने की सुविधा मुहैया कराती है. इसमें मौजूद यूआरएल अक्सर डेटासेट की जानकारी देने वाले लैंडिंग पेज पर ले जाता है. distribution प्रॉपर्टी में यह जानकारी दी जाती है कि डेटा कहां से और किस फ़ॉर्मैट में मिलेगा. इस प्रॉपर्टी में कई मान हो सकते हैं: जैसे कि, CSV वर्शन एक यूआरएल में मौजूद होता है और Excel वर्शन दूसरे यूआरएल में.

ज़रूरी प्रॉपर्टी
distribution.contentUrl URL

डाउनलोड करने के लिए लिंक.

प्रॉपर्टी
distribution DataDownload

डेटासेट डाउनलोड करने की जगह और डाउनलोड किए जाने वाले फ़ाइल फ़ॉर्मैट की जानकारी.

distribution.encodingFormat Text, URL

डेटासेट शेयर करने के लिए फ़ाइल फ़ॉर्मैट.

टेबल में रखा गया डेटासेट

टेबल में रखे गए डेटासेट को खास तौर पर पंक्तियों और कॉलम के ग्रिड में व्यवस्थित किया जाता है. टेबल में रखे गए डेटासेट एम्बेड करने वाले पेजों के लिए, आप ऊपर बताए गए मूल तरीके के हिसाब से ज़्यादा साफ़ जानकारी देने वाला मार्कअप भी बना सकते हैं. फ़िलहाल हमें CSVW ("वेब पर CSV", W3C देखें) के उस फ़र्क़ की जानकारी है, जिसे एचटीएमएल पेज पर टेबल में रखी गई उपयोगकर्ता के काम की सामग्री के साथ ही उपलब्ध कराया जाता है.

यहां ऐसी छोटी सी टेबल का उदाहरण दिया गया है जिसे CSVW JSON-LD फ़ॉर्मैट में कोड में बदला गया हैं. स्ट्रक्चर्ड डेटा की जाँच करने वाले टूल में पहले से जानकारी वाली कुछ गड़बड़ियां मौजूद हैं.

सहायता और टूल