ডেটাসেট

নাম, বিবরণ, স্রষ্টা ও বিতরণের ফর্ম্যাটের মতো সংশ্লিষ্ট তথ্য স্ট্রাকচার্ড ডেটা হিসেবে দেওয়া থাকলে, ডেটাসেট সহজে খুঁজে পাওয়া যায়। ডেটাসেট খোঁজার জন্য Google, schema.org বা অন্যান্য মেটাডেটা স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের বিবরণ আছে এমন পৃষ্ঠায় সেটি যোগ করা যায়। এই মার্ক-আপের উদ্দেশ্য হল জীব বিজ্ঞান, সমাজ বিজ্ঞান, মেশিন লার্নিং, নাগরিক ও সরকারি ডেটা সহ অন্যান্য বিষয় সম্পর্কে ডেটাসেট খোঁজার কাজকে আরও উন্নত করা।

যেগুলিকে ডেটাসেট হিসেবে ধরা যেতে পারে সেগুলির উদাহরণ নিচে দেওয়া হল:

  • কিছু ডেটা সহ একটি সারণী বা CSV ফাইল
  • একাধিক সারণী নিয়ে তৈরি একটি সংগ্রহ
  • মালিকানাধীন আছে এমন ফর্ম্যাটে ডেটা সহ একটি ফাইল
  • একসাথে একটি অর্থবহ ডেটাসেটকে নির্দেশ করে এমন একাধিক ফাইলের একটি সংগ্রহ
  • অন্য ফর্ম্যাটে ডেটা সহ একটি স্ট্রাকচার্ড অবজেক্ট যা একটি বিশেষ টুলে প্রসেস করার জন্য আপনি লোড করতে পারেন
  • ডেটা সংগ্রহ করছে এমন ছবি
  • মেশিন লার্নিং সম্পর্কিত ফাইল, যেমন প্রশিক্ষিত প্যারামিটার বা নিউরাল নেটওয়ার্ক স্ট্রাকচারের সংজ্ঞা
  • ডেটাসেট বলে আপনার মনে হচ্ছে এমন কিছু

আমাদের ডেটাসেট খোঁজার পদ্ধতি

ডেটাসেট সহ যে ওয়েব পৃষ্ঠা schema.org ডেটাসেট মার্ক-আপ বা W3C-এর Data Catalog Vocabulary (DCAT) ফর্ম্যাট-এ উল্লেখ করা অনুরূপ স্ট্রাকচার ব্যবহার করে, সেটির স্ট্রাকচার্ড ডেটা আমরা বুঝতে পারি। W3C CSVW-এর উপর নির্ভর করে এমন স্ট্রাকচার্ড ডেটাকে আমরা পরীক্ষামূলকভাবে ব্যবহার করছি এবং ডেটাসেটকে মার্ক-আপ করার জন্য নতুন পেশাদার পদ্ধতি তৈরি হওয়ার সাথে সাথে আমাদের ডেটাসেট খোঁজার পদ্ধতিকে আরও উন্নত করছি। ডেটাসেট খোঁজার ব্যাপারে আমাদের পদ্ধতি সম্পর্কে আরও তথ্য পেতে সর্বজনীন ডেটাসেট খুঁজে পাওয়াকে সহজ করা দেখুন।

উদাহরণ

স্ট্রাকচার্ড ডেটা টেস্টিং টুলে JSON-LD সিন্ট্যাক্স (পছন্দের) ব্যবহার করে ডেটাসেটের একটি উদাহরণ এখানে দেওয়া হল। এটি RDFa 1.1, মাইক্রোডেটা বা W3C DCAT ক্ষেত্রেও ব্যবহার করা যাবে। নিম্নলিখিত উদাহরণটি বাস্তব জগতের একটি ডেটাসেটের বিবরণ-এর উপর নির্ভর করে তৈরি।

JSON-LD

JSON-LD কোডে লেখা ডেটাসেটের একটি উদাহরণ নিচে দেওয়া হল:

RDFa

RDFa কোডে লেখা ডেটাসেটের একটি উদাহরণ নিচে দেওয়া হল:

নির্দেশিকা

সাইটকে স্ট্রাকচার্ড ডেটা সংক্রান্ত নির্দেশিকা অনুসরণ করতে হবে। স্ট্রাকচার্ড ডেটা সংক্রান্ত নির্দেশিকা ছাড়াও নিম্নলিখিত সাইটম্যাপ এবং সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি মেনে চললে ভাল হয়।

সাইটম্যাপ তৈরি করার পেশাদার পদ্ধতি

আপনার ইউআরএল খুঁজে পেতে Google-কে সাহায্য করার জন্য একটি সাইটম্যাপ ফাইল ব্যবহার করুন। আপনার সমগ্র সাইটে ডেটাসেটের বিবরণ কীভাবে দেওয়া হয়েছে তা বুঝতে সাইটম্যাপ ফাইল ও sameAs মার্ক-আপ সাহায্য করে।

আপনার কাছে ডেটাসেটের একটি রিপোজিটরি থাকলে, আপনার সম্ভবত দুই ধরনের পৃষ্ঠা থাকবে: প্রত্যেক ডেটাসেটের জন্য সেরা ("ল্যান্ডিং") পৃষ্ঠা এবং একাধিক ডেটাসেটের সূচি আছে এমন পৃষ্ঠা (যেমন সার্চ ফলাফল বা ডেটাসেটের কোনও সাবসেট)। সেরা পৃষ্ঠাগুলিতে ডেটাসেট সম্পর্কে স্ট্রাকচার্ড ডেটা যোগ করলে ভাল হয়। ডেটাসেটের একাধিক কপিতে (যেমন সার্চ ফলাফলের পৃষ্ঠায় তালিকা) স্ট্রাকচার্ড ডেটা যোগ করলে sameAs প্রপার্টি ব্যবহার করে সেরা পৃষ্ঠার সাথে লিঙ্ক করুন।

সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি

সর্বজনীন ডেটাসেট প্রায়ই আবার প্রকাশিত ও একত্রিত হয়ে থাকে এবং অন্য ডেটাসেটের উপর নির্ভর করে তৈরি হয়ে থাকে। ডেটাসেটটি একটি কপি হলে বা অন্য ডেটাসেটের উপর নির্ভর করে তৈরি করা হয়ে থাকলে, কীভাবে সেটি প্রকাশ করতে হবে তা এই প্রাথমিক আউটলাইন থেকে জানতে পারবেন।

  • পূর্বে অন্য কোথাও প্রকাশিত হয়েছে এমন ডেটাসেট বা বিবরণ আবার ব্যবহার করা হয়ে থাকলে আসল উৎসের সবচেয়ে সেরা ইউআরএল নির্দেশ করার জন্য sameAs প্রপার্টি ব্যবহার করুন।
  • আবার প্রকাশিত ডেটাসেটে (মেটাডেটা সহ) গুরুত্বপূর্ণ পরিবর্তন করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • একাধিক ডেটাসেট থেকে নিয়ে অথবা একত্রিত করে ডেটাসেটটি তৈরি করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • যেকোনও প্রাসঙ্গিক Digital Object identifiers (DOIs) বা Compact Identifiers যোগ করতে, identifier প্রপার্টি ব্যবহার করুন। ডেটাসেটে একাধিক শনাক্তকারী থাকলে, identifier প্রপার্টির পুনরাবৃত্তি করুন। JSON-LD ব্যবহার করলে, এটি JSON সূচির সিন্ট্যাক্স দিয়ে লেখা হয়।

উৎস, ভার্সন ও টাইম সিরিজ প্রকাশনার সাথে সংশ্লিষ্ট তারিখের বিষয়ে আমাদের সাজেশনের উন্নতি করতে আপনার মতামতের উপর আমরা নির্ভর করি। কমিউনিটির আলোচনাতে যোগদান করুন।

টেক্সটের প্রপার্টির বিষয়ে সাজেশন

টেক্সট ফিল্ডগুলিতে ৫০০০ অক্ষরের চেয়ে কম লিখলে ভাল হয়। Google ডেটাসেট সার্চ যেকোনও টেক্সটের শুধু প্রথম ৫০০০ অক্ষর ব্যবহার করে। নাম বা শীর্ষক সাধারণত কয়েকটি শব্দ বা একটি ছোট বাক্যের মাধ্যমে লেখা হয়।

পরিচিত সমস্যা ও সতর্কতা

Google-এর স্ট্রাকচার্ড ডেটা টেস্টিং টুল বা যাচাইকরণের অন্যান্য সিস্টেম আপনাকে কিছু সমস্যা ও সতর্কতা দেখাতে পারে। যাচাইকরণের সিস্টেম, সংস্থাকে contactType-এর মতো কোনও যোগাযোগের তথ্য উল্লেখ করতে সাজেস্ট করতে পারে; এর জন্য customer service, emergency, journalist, newsroompublic engagement মানগুলি উপযোগী। csvw:Table-কে mainEntity প্রপার্টির জন্য অপ্রত্যাশিত মান বলে দেখালে আপনি তা উপেক্ষা করতে পারেন।

বিভিন্ন ধরনের স্ট্রাকচার্ড ডেটার সংজ্ঞা

আপনার কন্টেন্টকে বিশিষ্ট ফলাফল হিসেবে দেখানোর উপযুক্ত করে তুলতে প্রয়োজনীয় প্রপার্টিগুলি আপনাকে যোগ করতেই হবে। ব্যবহারকারীকে উন্নত অভিজ্ঞতা প্রদান করতে, আপনার কন্টেন্ট সম্পর্কে আরও তথ্য দেওয়ার জন্য সাজেস্ট করা প্রপার্টিও যোগ করতে পারেন।

আপনার মার্ক-আপ যাচাই করার জন্য স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করতে পারেন।

একটি ডেটাসেটের সম্পর্কে বিবরণ দেওয়া (সেটির মেটাডেটা) ও সেটির কন্টেন্ট সম্পর্কে জানানোই হল প্রধান উদ্দেশ্য। যেমন, ডেটাসেটটি কী বিষয়ে, কোন ভেরিয়েবল এটি পরিমাপ করে, কে এটি তৈরি করেছেন ইত্যাদি ডেটাসেট মেটাডেটাতে থাকে। কিন্তু কোনও ভেরিয়েবলের নির্দিষ্ট মান এতে থাকে না।

Dataset

Dataset-এর সম্পূর্ণ সংজ্ঞা schema.org/Dataset-এ দেওয়া আছে।

ডেটাসেটের প্রকাশনার বিষয়ে আপনি আরও তথ্য দিতে পারেন, যেমন লাইসেন্স, প্রকাশনার তারিখ, DOI বা অন্য সংগ্রহে থাকা ডেটাসেটের সেরা ভার্সনকে নির্দেশ করার জন্য sameAs প্রপার্টি। উৎস ও লাইসেন্সের তথ্য প্রদান করছে এমন ডেটাসেটে identifier, licensesameAs যোগ করুন।

প্রয়োজনীয় প্রপার্টি
description Text

ডেটাসেটের সংক্ষিপ্ত বিবরণ।

নির্দেশিকা

  • সংক্ষিপ্ত বিবরণ ৫০ থেকে ৫০০০ অক্ষরের মধ্যে লিখতে হবে।
  • এর মধ্যে মার্কডাউন সিন্ট্যাক্স লেখা যেতে পারে। এম্বেড করা ছবির জন্য সম্পূর্ণ ইউআরএল উল্লেখ করতে হবে, আপেক্ষিক নয়।
  • JSON-LD ফর্ম্যাট ব্যবহার করলে, নতুন লাইন বোঝাতে \n (দুটি অক্ষর: ব্যাকস্ল্যাশ ও ছোট হাতের "n") ব্যবহার করুন।
name Text

ডেটাসেট সম্পর্কে সঠিকভাবে জানায় এমন একটি নাম। যেমন, "উত্তর-পূর্ব ভারতে বৃষ্টিপাতের হার"।

সাজেস্ট করা প্রপার্টি
alternateName Text

এই ডেটাসেটকে উল্লেখ করতে ব্যবহৃত কোনও বিকল্প বা সংক্ষিপ্ত নাম। যেমন (JSON-LD ফর্ম্যাটে):

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person বা Organization

এই ডেটাসেটের স্রষ্টা বা লেখক। কোনও ব্যক্তিকে নির্দিষ্টভাবে শনাক্ত করতে চাইলে, sameAs প্রপার্টি বা Person ধরনের মান হিসেবে ORCID ID ব্যবহার করুন। কোনও প্রতিষ্ঠান বা সংস্থাকে নির্দিষ্টভাবে শনাক্ত করতে চাইলে, ROR ID ব্যবহার করুন। যেমন (JSON-LD ফর্ম্যাটে):

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text বা CreativeWork

ডেটাসেটের সাথে উদ্ধৃত করতে হবে বলে ডেটা প্রদানকারীর সাজেস্ট করা শিক্ষামূলক নিবন্ধ শনাক্ত করে। ডেটাসেটের জন্য উদ্ধৃতি যোগ করতে name, identifier, creatorpublisher-এর মতো প্রপার্টি ব্যবহার করুন। এই ফিল্ডের মাধ্যমে একটি সম্পর্কিত শিক্ষামূলক প্রকাশনা নির্দিষ্টভাবে শনাক্ত করা যেতে পারে, যেমন ডেটা বর্ণনাকারী, ডেটা পেপার বা এই ডেটাসেট যে নিবন্ধের সম্পূরক হিসেবে কাজ করে সেটি। যেমন (JSON-LD ফর্ম্যাটে):

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

অতিরিক্ত নির্দেশিকা

  • ডেটাসেটের জন্য উদ্ধৃতি যোগ করতে এই ফিল্ড ব্যবহার করবেন না। এটি সম্পর্কিত শিক্ষামূলক নিবন্ধ উল্লেখ করার জন্য ব্যবহার করা উচিত, ডেটসেটটি নয়। পরিবর্তে, ডেটাসেটের জন্য উদ্ধৃতি যোগ করতে name, identifier, creatorpublisher-এর মতো প্রপার্টি ব্যবহার করুন।
  • উদ্ধৃতির ফিল্ড উদ্ধৃতির স্নিপেট দিয়ে ভর্তি করার সময়, সম্ভব হলে নিবন্ধ শনাক্তকারী (যেমন DOI) উল্লেখ করবেন।

    সাজেস্ট করা হয়: "মিত্র সি (২০১৪) এক্সের প্রভাব। ইকোলজি ১(১)। https://doi.org/10.1111/111"

    সাজেস্ট করা হয় না: "মিত্র সি (২০১৪) এক্সসের প্রভাব। ইকোলজি ১(১)।"

identifier URL, Text বা PropertyValue

DOI বা Compact Identifier-এর মতো একটি শনাক্তকারী। ডেটাসেটে একাধিক শনাক্তকারী থাকলে, identifier প্রপার্টি আবার ব্যবহার করুন। JSON-LD ব্যবহার করলে, এটি JSON সূচির সিন্ট্যাক্স দিয়ে লেখা হয়।

keywords Text

ডেটাসেটকে সংক্ষেপে বিবৃত করছে এমন কীওয়ার্ড।

license URL, CreativeWork

যে লাইসেন্সের মাধ্যমে ডেটাসেটটি বিতরণ করা হচ্ছে। যেমন:

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

একই ডেটাসেট সম্পর্কে আরও তথ্য প্রদান করে এমন অন্য রিপোজিটরিতে অবস্থিত একটি পৃষ্ঠার লিঙ্ক।

spatialCoverage Text, Place

যে স্থান থেকে ডেটাসেটের ডেটা সংগ্রহ করা হয়েছে সেটি লিখতে পারেন। ডেটাসেটে স্থানের কোনও মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। যেমন, নির্দিষ্ট যে স্থান বা বৃহত্তর এলাকা থেকে সব ডেটা সংগ্রহ করা হয়েছে সেটির অক্ষাংশ ও দ্রাঘিমাংশ।

পয়েন্ট

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

আকার

বিভিন্ন এলাকার আকারের বিবরণ দিতে GeoShape ব্যবহার করুন। যেমন, এলাকার আকার নির্দিষ্ট করার জন্য স্থানাঙ্কের উল্লেখ করতে নিম্নলিখিত কোড লিখতে পারেন।

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

box, circle, line বা polygon প্রপার্টির পয়েন্টগুলি যথাক্রমে অক্ষাংশ ও দ্রাঘিমাংশ হিসেবে উল্লেখ করতে হবে এবং এই দুটি মানের মধ্যে স্পেস দিতে হবে।

লোকেশনের নাম

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

ডেটাসেটের ডেটা একটি নির্দিষ্ট সময়ের ব্যবধান সম্পর্কে জানায়। ডেটাসেটে সময়ের মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। সময়ের ব্যবধান ও নির্দিষ্ট সময়কে বোঝাতে Schema.org, ISO 8601 স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের ব্যবধানের উপর নির্ভর করে আপনি অন্যরকমভাবে তারিখের বিবরণ দিতে পারেন। দুটি দশমিক (..) দিয়ে আপনি শেষ হওয়ার সময় জানা যায় না এমন সময়কাল নির্দেশ করতে পারেন।

একটি তারিখ

"temporalCoverage" : "2008"

সময়কাল

"temporalCoverage" : "1950-01-01/2013-12-18"

শেষ হওয়ার সময় জানা যায় না এমন সময়কাল

"temporalCoverage" : "2013-12-19/.."
variableMeasured Text, PropertyValue

যে ভেরিয়েবল এই ডেটাসেটটি পরিমাপ করে। যেমন, তাপমাত্রা বা চাপ।

version Text, Number

ডেটাসেটের ভার্সন নম্বর।

url URL

ডেটাসেটের বিবরণ দিচ্ছে এমন পৃষ্ঠার লোকেশন।

DataCatalog

DataCatalog-এর সম্পূর্ণ সংজ্ঞা schema.org/DataCatalog-এ দেওয়া আছে।

ডেটাসেট অনেক সময় এমন রিপোজিটরিতে প্রকাশ করা হয় যেখানে অন্যান্য ডেটাসেটও আছে। একই ডেটাসেট সেই ধরনের একাধিক রিপোজিটরির অন্তর্ভুক্ত হতে পারে। এই ডেটাসেট আছে এমন একটি ডেটা ক্যাটালগকে আপনি সরাসরি নির্দেশ করতে পারেন।

সাজেস্ট করা প্রপার্টি
includedInDataCatalog DataCatalog

যে ক্যাটালগে এই ডেটাসেট অন্তর্ভুক্ত আছে।

DataDownload

DataDownload-এর সম্পূর্ণ সংজ্ঞা schema.org/DataDownload-এ দেওয়া আছে। ডাউনলোড করার সুবিধা আছে এমন ডেটাসেটের ক্ষেত্রে ডেটাসেট প্রপার্টির সাথে নিম্নলিখিত প্রপার্টিগুলি যোগ করুন।

যেহেতু ইউআরএল অধিকাংশ সময় ডেটাসেটের বিবরণ আছে এমন একটি ল্যান্ডিং পৃষ্ঠায় নিয়ে যায়, তাই ডেটাসেটটি কীভাবে পাওয়া যাবে তার একটি বিবরণ distribution প্রপার্টি থেকে জানা যায়। distribution প্রপার্টি কোথায় এবং কী ফর্ম্যাটে ডেটা পাওয়া যাবে তার বিবরণ দেয়। এই প্রপার্টির একাধিক মান থাকতে পারে: যেমন, একটি ইউআরএলে CSV ভার্সন ও আরেকটিতে Excel ভার্সন থাকতে পারে।

প্রয়োজনীয় প্রপার্টি
distribution.contentUrl URL

যে লিঙ্ক থেকে ডাউনলোড করা যাবে।

প্রপার্টি
distribution DataDownload

যে লোকেশন থেকে ডেটাসেট ডাউনলোড করা যাবে এবং যে ফাইল ফর্ম্যাট হিসেবে সেটি ডাউনলোড হবে তার বিবরণ।

distribution.encodingFormat Text, URL

বিতরণের জন্য ফাইল ফর্ম্যাট।

সারণীবদ্ধ ডেটাসেট

সারণীবদ্ধ ডেটাসেট সারি ও কলামে সাজানো থাকে। যে পৃষ্ঠাগুলি সারণীবদ্ধ ডেটাসেট এম্বেড করে, সেগুলির জন্য আপনি উপরে উল্লিখিত পদ্ধতি ছাড়াও উপযুক্ত মার্ক-আপ তৈরি করতে পারেন। HTML পৃষ্ঠায় ব্যবহারকারীর কথা ভেবে তৈরি সারণীবদ্ধ কন্টেন্টের সাথে প্রদান করা CSVW-এর ("CSV on the Web", W3C দেখুন) একটি ধরন আমরা বর্তমানে বুঝতে পারি।

CSVW JSON-LD ফর্ম্যাটে এনকোড করা একটি ছোট সারণীর উদাহরণ নিচে দেওয়া হল। স্ট্রাকচার্ড ডেটা টেস্টিং টুলে কিছু পরিচিত সমস্যা আছে।

সহায়তা ও টুল