ডেটাসেট

নাম, বিবরণ, স্রষ্টা ও বিতরণের ফর্ম্যাটের মতো সংশ্লিষ্ট তথ্য স্ট্রাকচার্ড ডেটা হিসেবে দেওয়া থাকলে, ডেটাসেট সহজে খুঁজে পাওয়া যায়। ডেটাসেট খোঁজার জন্য Google, schema.org বা অন্যান্য মেটাডেটা স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের বিবরণ আছে এমন পৃষ্ঠায় সেটি যোগ করা যায়। এই মার্ক-আপের উদ্দেশ্য হল জীব বিজ্ঞান, সমাজ বিজ্ঞান, মেশিন লার্নিং, নাগরিক ও সরকারি ডেটা সহ অন্যান্য বিষয় সম্পর্কে ডেটাসেট খোঁজার কাজকে আরও উন্নত করা। আপনি ডেটাসেট সার্চ টুল ব্যবহার করে ডেটাসেট খুঁজতে পারেন।

Dataset Search-এর উদাহরণ

যেগুলিকে ডেটাসেট হিসেবে ধরা যেতে পারে সেগুলির উদাহরণ নিচে দেওয়া হল:

  • কিছু ডেটা সহ একটি সারণী বা CSV ফাইল
  • একাধিক সারণী নিয়ে তৈরি একটি সংগ্রহ
  • মালিকানাধীন আছে এমন ফর্ম্যাটে ডেটা সহ একটি ফাইল
  • একসাথে একটি অর্থবহ ডেটাসেটকে নির্দেশ করে এমন একাধিক ফাইলের একটি সংগ্রহ
  • অন্য ফর্ম্যাটে ডেটা সহ একটি স্ট্রাকচার্ড অবজেক্ট যা একটি বিশেষ টুলে প্রসেস করার জন্য আপনি লোড করতে পারেন
  • ডেটা সংগ্রহ করছে এমন ছবি
  • মেশিন লার্নিং সম্পর্কিত ফাইল, যেমন প্রশিক্ষিত প্যারামিটার বা নিউরাল নেটওয়ার্ক স্ট্রাকচারের সংজ্ঞা
  • ডেটাসেট বলে আপনার মনে হচ্ছে এমন কিছু

স্ট্রাকচার্ড ডেটা কীভাবে যোগ করবেন

কোনও পৃষ্ঠা সম্পর্কে তথ্য প্রদান করা ও পৃষ্ঠার কন্টেন্টকে বিভিন্ন শ্রেণীতে ভাগ করার জন্য স্ট্রাকচার্ড ডেটা হল একটি স্ট্যান্ডার্ড ফর্ম্যাট। আপনি স্ট্রাকচার্ড ডেটা এই প্রথমবার ব্যবহার করলে, স্ট্রাকচার্ড ডেটা কীভাবে কাজ করে নিবন্ধটি পড়ুন।

স্ট্রাকচার্ড ডেটা তৈরি করে পরীক্ষা করা এবং প্রকাশ করা সম্পর্কে নিচে থেকে জানা যাবে। ওয়েব পৃষ্ঠায় কীভাবে স্ট্রাকচার্ড ডেটা যোগ করতে হবে সেটি সম্পর্কে ধাপে ধাপে নির্দেশ পেতে, স্ট্রাকচার্ড ডেটা কোডল্যাব দেখুন।

  1. প্রয়োজনীয় প্রপার্টি যোগ করুন। পৃষ্ঠার কোথায় স্ট্রাকচার্ড ডেটা যোগ করবেন সেই সম্পর্কে জানতে JSON-LD স্ট্রাকচার্ড ডেটা ডেটা: পৃষ্ঠার কোথায় যোগ করব দেখুন।
  2. নির্দেশিকা অনুসরণ করুন।
  3. আপনি বিশিষ্ট ফলাফল পরীক্ষা-এর মাধ্যমে কোড যাচাই করুন।
  4. স্ট্রাকচার্ড ডেটা ব্যবহার করছে এমন কিছু পৃষ্ঠা প্রকাশ করুন এবং ইউআরএল খতিয়ে দেখার টুল দিয়ে Google কীভাবে পৃষ্ঠাটি দেখবে তা পরীক্ষা করুন। Google যেন পৃষ্ঠাটি অ্যাক্সেস করতে পারে এবং সেটি যাতে robots.txt ফাইল, noindex ট্যাগ দিয়ে ব্লক করা না থাকে অথবা দেখার জন্য লগ-ইন করতে না হয়, সেই বিষয়ে লক্ষ্য রাখুন। পৃষ্ঠা দেখে যদি মনে হয়, তাহলে Google-কে ইউআরএল আবার ক্রল করার অনুরোধ করতে পারেন।
  5. আগামীদিনের পরিবর্তনগুলি সম্পর্কে Google-কে জানাতে, আমরা আপনাকে সাইটম্যাপ জমা দিতে সাজেস্ট করছি। আপনি Search Console সাইটম্যাপ এপিআই ব্যবহার করে এটি অটোমেটিক করতে পারেন।

আমাদের ডেটাসেট খোঁজার পদ্ধতি

schema.org Dataset মার্ক-আপ বা W3C-এর ডেটা ক্যাটালগ ভোকাবুলারি (DCAT) ফর্ম্যাটে উল্লিখিত অনুরূপ কোনও স্ট্রাকচার ব্যবহার করে আমরা ডেটাসেট সম্পর্কিত কোনও ওয়েব পৃষ্ঠার স্ট্রাকচার্ড ডেটার ব্যাপারে বুঝতে পারি। W3C CSVW-এর উপর নির্ভর করে এমন স্ট্রাকচার্ড ডেটাকে আমরা পরীক্ষামূলকভাবে ব্যবহার করছি এবং ডেটাসেটকে মার্ক-আপ করার জন্য নতুন পেশাদার পদ্ধতি তৈরি হওয়ার সাথে সাথে আমাদের ডেটাসেট খোঁজার পদ্ধতিকে আরও উন্নত করছি। ডেটাসেট খোঁজার ব্যাপারে আমাদের পদ্ধতি সম্পর্কে আরও তথ্য পেতে ডেটাসেট খুঁজে পাওয়াকে সহজ করা নিবন্ধটি দেখুন।

উদাহরণ

বিশিষ্ট ফলাফল পরীক্ষায় JSON-LD কোড এবং schema.org সিন্ট্যাক্স (পছন্দের) ব্যবহার করে ডেটাসেটের একটি উদাহরণ এখানে দেওয়া হল। একই schema.org মাইক্রোডেটা সিন্ট্যাক্স বা RDFa 1.1 ক্ষেত্রেও ব্যবহার করা যাবে। মেটাডেটার বিবরণ দিতে আপনি W3C DCAT ব্যবহার করতে পারবেন। নিম্নলিখিত উদাহরণটি বাস্তব জগতের একটি ডেটাসেটের বিবরণ-এর উপর নির্ভর করে তৈরি।

JSON-LD

JSON-LD কোডে লেখা ডেটাসেটের একটি উদাহরণ নিচে দেওয়া হল:


  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>
RDFa

DCAT ব্যবহার করে RDFa কোডে লেখা একটি ডেটাসেটের এখানে উদাহরণ দেওয়া হল:


<article about="/node/1234" typeof="dcat:Dataset">
    <dl>
      <dt>Name:</dt>
      <dd property="dc:title">ACME Inc Cash flow data</dd>
      <dt>Identifiers:</dt>
      <dd property="dc:identifier">https://doi.org/10.1000/182</dd>
      <dd property="dc:identifier">https://identifiers.org/ark:/12345/fk1234</dd>
      <dt>Description:</dt>
      <dd property="dc:description">Financial Statements - Consolidated Statement of Cash Flows</dd>
      <dt>Category:</dt>
      <dd rel="dc:subject">Financial</dd>
      <dt class="field-label">Downloads:</dt>
      <dd>
        <ul>
          <li>
            <a rel="dcat:distribution" href="Consolidated_Statement_of_Cash_Flows_en.csv"><span property="dcat:mediaType" content="text/csv" >Consolidated_Statement_of_Cash_Flows_en.csv</span></a>
          </li>
         <li>
            <a rel="dcat:distribution"  href="files/Consolidated_Statement_of_Cash_Flows_en.xls"><span property="dcat:mediaType" content="application/vnd.ms-excel">Consolidated_Statement_of_Cash_Flows_en.xls</span></a>
          </li>
          <li>
            <a rel="dcat:distribution"  href="files/consolidated_statement_of_cash_flows_en.xml"><span property="dcat:mediaType" content="application/xml">consolidated_statement_of_cash_flows_en.xml</span></a>
          </li>
        </ul>
      </dd>
    </dl>
  </article>

নির্দেশিকা

সাইটকে স্ট্রাকচার্ড ডেটা সংক্রান্ত নির্দেশিকা অনুসরণ করতে হবে। স্ট্রাকচার্ড ডেটা সংক্রান্ত নির্দেশিকা ছাড়াও নিম্নলিখিত সাইটম্যাপ এবং উৎস ও সূত্র সংক্রান্ত পেশাদার পদ্ধতি মেনে চললে ভাল হয়।

সাইটম্যাপ তৈরি করার পেশাদার পদ্ধতি

আপনার সাইটের ইউআরএল খুঁজে পেতে Google-কে সাহায্য করার জন্য একটি সাইটম্যাপ ফাইল ব্যবহার করুন। আপনার পুরো সাইটের ডেটাসেটের বিবরণ কীভাবে দেওয়া হয়েছে তা বুঝতে সাইটম্যাপ ফাইল ও sameAs মার্ক-আপ সাহায্য করে।

আপনার কাছে ডেটাসেটের একটি রিপোজিটরি থাকলে, আপনার সম্ভবত দুই ধরনের পৃষ্ঠা থাকবে: প্রত্যেক ডেটাসেটের জন্য সেরা ("ল্যান্ডিং") পৃষ্ঠা এবং একাধিক ডেটাসেটের সূচি আছে এমন পৃষ্ঠা (যেমন সার্চ ফলাফল বা ডেটাসেটের কোনও সাবসেট)। সেরা পৃষ্ঠাগুলিতে ডেটাসেট সম্পর্কে স্ট্রাকচার্ড ডেটা যোগ করলে ভাল হয়। ডেটাসেটের একাধিক কপিতে (যেমন সার্চ ফলাফলের পৃষ্ঠায় তালিকা) স্ট্রাকচার্ড ডেটা যোগ করলে sameAs প্রপার্টি ব্যবহার করে সেরা পৃষ্ঠার সাথে লিঙ্ক করুন।

সূত্র ও উৎস সংক্রান্ত পেশাদার পদ্ধতি

সর্বজনীন ডেটাসেট প্রায়ই আবার প্রকাশিত ও একত্রিত হয়ে থাকে এবং অন্য ডেটাসেটের উপর নির্ভর করে তৈরি হয়ে থাকে। ডেটাসেটটি একটি কপি হলে বা অন্য ডেটাসেটের উপর নির্ভর করে তৈরি করা হয়ে থাকলে, কীভাবে সেটি প্রকাশ করতে হবে তা এই প্রাথমিক আউটলাইন থেকে জানতে পারবেন।

  • পূর্বে অন্য কোথাও প্রকাশিত হয়েছে এমন ডেটাসেট বা বিবরণ আবার ব্যবহার করা হয়ে থাকলে আসল উৎসের সবচেয়ে সেরা ইউআরএল নির্দেশ করার জন্য sameAs প্রপার্টি ব্যবহার করুন। sameAs-এর মান থেকে ডেটাসেটের পরিচয় যেন স্পষ্টভাবে বোঝা যায় তা দেখতে হবে - অর্থাৎ, দুটি আলাদা ডেটাসেটের জন্য sameAs-এর মান হিসেবে একই ইউআরএল ব্যবহার করা যাবে না।
  • আবার প্রকাশিত ডেটাসেটে (মেটাডেটা সহ) গুরুত্বপূর্ণ পরিবর্তন করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • একাধিক ডেটাসেট থেকে নিয়ে অথবা একত্রিত করে ডেটাসেটটি তৈরি করা হলে, isBasedOn প্রপার্টি ব্যবহার করুন।
  • যেকোনও প্রাসঙ্গিক Digital Object Identifiers (DOIs) বা Compact Identifiers-এর সাথে identifier প্রপার্টি যোগ করুন। ডেটাসেটে একাধিক শনাক্তকারী থাকলে, identifierপ্রপার্টি আবার ব্যবহার করুন। JSON-LD ব্যবহার করলে, এটি JSON তালিকার সিন্ট্যাক্স দিয়ে লেখা হয়।

উৎস, ভার্সন ও টাইম সিরিজ প্রকাশনার সাথে সংশ্লিষ্ট তারিখের বিষয়ে আমাদের সাজেশনের উন্নতি করতে আপনার মতামতের উপর আমরা নির্ভর করি। কমিউনিটির আলোচনাতে যোগদান করুন।

টেক্সটের প্রপার্টির বিষয়ে সাজেশন

টেক্সট ফিল্ডগুলিতে ৫০০০ অক্ষরের চেয়ে কম লিখলে ভাল হয়। Google ডেটাসেট সার্চ যেকোনও টেক্সটের শুধু প্রথম ৫০০০ অক্ষর ব্যবহার করে। নাম বা শীর্ষক সাধারণত কয়েকটি শব্দ বা একটি ছোট বাক্যের মাধ্যমে লেখা হয়।

পরিচিত সমস্যা ও সতর্কতা

Google-এর স্ট্রাকচার্ড ডেটা টেস্টিং টুল বা যাচাইকরণের অন্যান্য সিস্টেম আপনাকে কিছু সমস্যা ও সতর্কতা দেখাতে পারে। যাচাইকরণের সিস্টেম, সংস্থাকে contactType-এর মতো কোনও যোগাযোগের তথ্য উল্লেখ করতে সাজেস্ট করতে পারে; এর জন্য customer service, emergency, journalist, newsroompublic engagement মানগুলি উপযোগী। csvw:Table-কে mainEntity প্রপার্টির জন্য অপ্রত্যাশিত মান বলে দেখালে আপনি তা উপেক্ষা করতে পারেন।

বিভিন্ন ধরনের স্ট্রাকচার্ড ডেটার সংজ্ঞা

আপনার কন্টেন্টকে বিশিষ্ট ফলাফল হিসেবে দেখানোর উপযুক্ত করে তুলতে প্রয়োজনীয় প্রপার্টিগুলি আপনাকে যোগ করতেই হবে। ব্যবহারকারীকে উন্নত অভিজ্ঞতা প্রদান করতে, আপনার কন্টেন্ট সম্পর্কে আরও তথ্য দেওয়ার জন্য সাজেস্ট করা প্রপার্টিও যোগ করতে পারেন।

আপনার মার্ক-আপ যাচাই করার জন্য স্ট্রাকচার্ড ডেটা টেস্টিং টুল ব্যবহার করতে পারেন।

একটি ডেটাসেটের সম্পর্কে বিবরণ দেওয়া (সেটির মেটাডেটা) ও সেটির কন্টেন্ট সম্পর্কে জানানোই হল প্রধান উদ্দেশ্য। যেমন, ডেটাসেটটি কী বিষয়ে, কোন ভেরিয়েবল এটি পরিমাপ করে, কে এটি তৈরি করেছেন ইত্যাদি ডেটাসেট মেটাডেটাতে থাকে। কিন্তু কোনও ভেরিয়েবলের নির্দিষ্ট মান এতে থাকে না।

Dataset

Dataset-এর সম্পূর্ণ সংজ্ঞা schema.org/Dataset-এ দেওয়া আছে।

ডেটাসেটের প্রকাশনার বিষয়ে আপনি আরও তথ্য দিতে পারেন, যেমন লাইসেন্স, প্রকাশনার তারিখ, DOI বা অন্য রিপোজিটরিতে থাকা ডেটাসেটের সেরা ভার্সনকে নির্দেশ করার জন্য sameAs প্রপার্টি। উৎস ও লাইসেন্স বিষয়ক তথ্য প্রদান করছে এমন ডেটাসেটে identifier, licensesameAs যোগ করুন।

প্রয়োজনীয় প্রপার্টি
description Text

ডেটাসেটের সংক্ষিপ্ত বিবরণ।

নির্দেশিকা

  • সংক্ষিপ্ত বিবরণ ৫০ থেকে ৫০০০ অক্ষরের মধ্যে লিখতে হবে।
  • এর মধ্যে মার্কডাউন সিন্ট্যাক্স লেখা যেতে পারে। এম্বেড করা ছবির জন্য সম্পূর্ণ ইউআরএল উল্লেখ করতে হবে, আপেক্ষিক নয়।
  • JSON-LD ফর্ম্যাট ব্যবহার করলে, নতুন লাইন বোঝাতে \n (দুটি অক্ষর: ব্যাকস্ল্যাশ ও ছোট হাতের "n") ব্যবহার করুন।
name Text

ডেটাসেটের একটি বিবরণমূলক নাম। যেমন, "উত্তর-পূর্ব ভারতে বৃষ্টিপাতের হার"।

নির্দেশিকা

  • যেখানে সম্ভব সেখানে ডেটাসেটের জন্য স্বতন্ত্র নাম ব্যবহার করুন।
  • সাজেস্ট করা হয়: "Snow depth in the Northern Hemisphere" এবং "Snow depth in the Southern Hemisphere"-কে দু'টি আলাদা ডেটাসেটের জন্য ব্যবহার করা উচিত।

    সাজেস্ট করা হয়নি: "Snow depth" এবং "Snow depth"-কে দু'টি আলাদা ডেটাসেটের জন্য ব্যবহার করা উচিত।

সাজেস্ট করা প্রপার্টি
alternateName Text

এই ডেটাসেটকে উল্লেখ করতে ব্যবহৃত কোনও বিকল্প বা সংক্ষিপ্ত নাম। যেমন (JSON-LD ফর্ম্যাটে):


"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator Person বা Organization

এই ডেটাসেটের স্রষ্টা বা লেখক। কাউকে বিশেষভাবে শনাক্ত করতে, Person ধরনের sameAs প্রপার্টির মান হিসেবে ORCID ID ব্যবহার করুন। কোনও প্রতিষ্ঠান বা সংস্থাকে শনাক্ত করতে, ROR ID ব্যবহার করুন। যেমন (JSON-LD ফর্ম্যাটে):


"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation Text বা CreativeWork

ডেটাসেটের সাথে উদ্ধৃত করতে হবে বলে ডেটা প্রদানকারীর সাজেস্ট করা শিক্ষামূলক নিবন্ধ শনাক্ত করে। ডেটাসেটের জন্য উদ্ধৃতি যোগ করতে name, identifier, creatorpublisher-এর মতো প্রপার্টি ব্যবহার করুন। এই ফিল্ডের মাধ্যমে একটি সম্পর্কিত শিক্ষামূলক প্রকাশনা নির্দিষ্টভাবে শনাক্ত করা যেতে পারে, যেমন ডেটা বর্ণনাকারী, ডেটা পেপার বা এই ডেটাসেট যে নিবন্ধের সম্পূরক হিসেবে কাজ করে সেটি। যেমন (JSON-LD ফর্ম্যাটে):


"citation": "https://doi.org/10.1111/111"

"citation": "https://identifiers.org/pubmed:11111111"

"citation": "https://identifiers.org/arxiv:0111.1111v1"

"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

অতিরিক্ত নির্দেশিকা

  • ডেটাসেটের জন্য উদ্ধৃতি যোগ করতে এই ফিল্ড ব্যবহার করবেন না। এটি সম্পর্কিত শিক্ষামূলক নিবন্ধ উল্লেখ করার জন্য ব্যবহার করা উচিত, ডেটসেটটি নয়। পরিবর্তে, ডেটাসেটের জন্য উদ্ধৃতি যোগ করতে name, identifier, creatorpublisher-এর মতো প্রপার্টি ব্যবহার করুন।
  • উদ্ধৃতির প্রপার্টি উদ্ধৃতির স্নিপেট দিয়ে ভর্তি করার সময়, সম্ভব হলে নিবন্ধ শনাক্তকারী (যেমন DOI) উল্লেখ করবেন।

    সাজেস্ট করা হয়: "Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    সাজেস্ট করা হয় না: "Doe J (2014) Influence of X. Biomics 1(1)."

hasPart বা isPartOf URL বা Dataset

ছোট ছোট ডেটাসেট সংগ্রহ করে যদি ডেটাসেট হয়, তাহলে সেই সম্পর্ক বোঝাতে hasPart প্রপার্টি ব্যবহার করুন। বিপরীতে, ডেটাসেট যদি একটি বড় ডেটাসেটের অংশ হয়, তাহলে isPartOf ব্যবহার করুন। Dataset ইন্সট্যান্স বা ইউআরএল হিসেবে দুটি প্রপার্টি ব্যবহার করা যাবে। যদি Dataset মান হিসেবে ব্যবহার হয়, তাহলে এটিকে স্বতন্ত্র Dataset-এর জন্য প্রয়োজনীয় সব প্রপার্টি অন্তর্ভুক্ত করতে হবে। যেমন:


"hasPart" : [
  {
    "@type": "Dataset",
    "name": "Sub dataset 01",
    "description": "Informative description of the first subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  },
  {
    "@type": "Dataset",
    "name": "Sub dataset 02",
    "description": "Informative description of the second subdataset...",
    "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
  }
]

"isPartOf" : "https://example.com/aggregate_dataset"
identifier URL, Text বা PropertyValue

DOI বা Compact Identifier-এর মতো একটি শনাক্তকারী। ডেটাসেটে একাধিক শনাক্তকারী থাকলে, identifier প্রপার্টি আবার ব্যবহার করুন। JSON-LD ব্যবহার করলে, এটি JSON তালিকার সিন্ট্যাক্স দিয়ে লেখা হয়।

keywords Text

ডেটাসেটের সংক্ষেপে বিবরণ দিয়েছে এমন কীওয়ার্ড।

license URL বা CreativeWork

যে লাইসেন্সের মাধ্যমে ডেটাসেটটি বিতরণ করা হচ্ছে। যেমন:


"license" : "https://creativecommons.org/publicdomain/zero/1.0/"

"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }

অতিরিক্ত নির্দেশিকা

  • ব্যবহৃত লাইসেন্সের একটি নির্দিষ্ট ভার্সন স্পষ্টভাবে শনাক্ত করে এমন একটি ইউআরএল উল্লেখ করুন।

    সাজেস্ট করা হয়

    
    "license" : "https://creativecommons.org/licenses/by/4.0"

    সাজেস্ট করা হয়নি

    
    "license" : "https://creativecommons.org/licenses/by"
measurementTechnique Text বা URL

ডেটাসেটে ব্যবহৃত কৌশল, প্রযুক্তি বা কার্যপ্রণালী, যেটি variableMeasured-এর মধ্যে বর্ণিত ভেরিয়েবেলের অনুরূপ।

sameAs URL

ডেটাসেটের পরিচয়কে স্পষ্টভাবে নির্দেশ করে এমন রেফারেন্স ওয়েব পৃষ্ঠার ইউআরএল।

spatialCoverage Text বা Place

যে স্থান থেকে ডেটাসেটের ডেটা সংগ্রহ করা হয়েছে, সেটি লিখতে পারেন। ডেটাসেটে স্থানের কোনও মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। যেমন, নির্দিষ্ট যে স্থান বা বৃহত্তর এলাকা থেকে সব ডেটা সংগ্রহ করা হয়েছে সেটির অক্ষাংশ ও দ্রাঘিমাংশ।

পয়েন্ট


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

আকার

বিভিন্ন এলাকার আকারের বিবরণ দিতে GeoShape ব্যবহার করুন। যেমন, এলাকার আকার নির্দিষ্ট করার জন্য স্থানাঙ্কের উল্লেখ করতে নিম্নলিখিত কোড লিখতে পারেন।


"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

box, circle, line বা polygon প্রপার্টির পয়েন্টগুলি যথাক্রমে অক্ষাংশ ও দ্রাঘিমাংশ হিসেবে উল্লেখ করতে হবে এবং এই দুটি মানের মধ্যে স্পেস দিতে হবে।

লোকেশনের নাম


"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

ডেটাসেটের ডেটা একটি নির্দিষ্ট সময়ের ব্যবধান সম্পর্কে জানায়। ডেটাসেটে সময়ের মাত্রা থাকলেই শুধুমাত্র এই প্রপার্টি যোগ করবেন। সময়ের ব্যবধান ও নির্দিষ্ট সময়কে বোঝাতে Schema.org, ISO 8601 স্ট্যান্ডার্ড ব্যবহার করে। ডেটাসেটের ব্যবধানের উপর নির্ভর করে আপনি অন্যরকমভাবে তারিখের বিবরণ দিতে পারেন। দুটি দশমিক (..) দিয়ে আপনি শেষ হওয়ার সময় জানা যায় না এমন সময়কাল নির্দেশ করতে পারেন।

একটি তারিখ


"temporalCoverage" : "2008"

সময়কাল


"temporalCoverage" : "1950-01-01/2013-12-18"

শেষ হওয়ার সময় জানা যায় না এমন সময়কাল


"temporalCoverage" : "2013-12-19/.."
variableMeasured Text বা PropertyValue

যে ভেরিয়েবল এই ডেটাসেটটি পরিমাপ করে। যেমন, তাপমাত্রা বা চাপ।

version Text বা Number

ডেটাসেটের ভার্সন নম্বর।

url URL

ডেটাসেটের বিবরণ দিচ্ছে এমন পৃষ্ঠার লোকেশন।

DataCatalog

DataCatalog-এর সম্পূর্ণ সংজ্ঞা schema.org/DataCatalog-এ দেওয়া আছে।

ডেটাসেট অনেক সময় এমন রিপোজিটরিতে প্রকাশ করা হয় যেখানে অন্যান্য ডেটাসেটও আছে। একই ডেটাসেট সেই ধরনের একাধিক রিপোজিটরির অন্তর্ভুক্ত হতে পারে। এই ডেটাসেট আছে এমন একটি ডেটা ক্যাটালগকে আপনি সরাসরি নির্দেশ করতে পারেন।

সাজেস্ট করা প্রপার্টি
includedInDataCatalog DataCatalog

যে ক্যাটালগে এই ডেটাসেট অন্তর্ভুক্ত আছে।

DataDownload

DataDownload-এর সম্পূর্ণ সংজ্ঞা schema.org/DataDownload-এ দেওয়া আছে। ডাউনলোড করার সুবিধা আছে এমন ডেটাসেটের ক্ষেত্রে ডেটাসেট প্রপার্টির সাথে নিম্নলিখিত প্রপার্টিগুলি যোগ করুন।

যেহেতু ইউআরএল অধিকাংশ সময় ডেটাসেটের বিবরণ আছে এমন একটি ল্যান্ডিং পৃষ্ঠায় নিয়ে যায়, তাই ডেটাসেটটি কীভাবে পাওয়া যাবে তার একটি বিবরণ distribution প্রপার্টি থেকে জানা যায়। distribution প্রপার্টি কোথায় এবং কী ফর্ম্যাটে ডেটা পাওয়া যাবে তার বিবরণ দেয়। এই প্রপার্টির একাধিক মান থাকতে পারে: যেমন, একটি ইউআরএলে CSV ভার্সন ও আরেকটিতে Excel ভার্সন থাকতে পারে।

প্রয়োজনীয় প্রপার্টি
distribution.contentUrl URL

যে লিঙ্ক থেকে ডাউনলোড করা যাবে।

সাজেস্ট করা প্রপার্টি
distribution DataDownload

যে লোকেশন থেকে ডেটাসেট ডাউনলোড করা যাবে এবং যে ফাইল ফর্ম্যাট হিসেবে সেটি ডাউনলোড হবে, তার বিবরণ।

distribution.encodingFormat Text বা URL

বিতরণের জন্য ফাইল ফর্ম্যাট।

সারণীবদ্ধ ডেটাসেট

সারণীবদ্ধ ডেটাসেট সারি ও কলামে সাজানো থাকে। যে পৃষ্ঠাগুলি সারণীবদ্ধ ডেটাসেট এম্বেড করে, সেগুলির জন্য আপনি উপরে উল্লিখিত প্রাথমিক পদ্ধতি ছাড়াও উপযুক্ত মার্ক-আপ তৈরি করতে পারেন। HTML পৃষ্ঠায় ব্যবহারকারীর কথা ভেবে তৈরি সারণীবদ্ধ কন্টেন্টের সাথে প্রদান করা CSVW-এর ("CSV on the Web", W3C দেখুন) একটি ধরন আমরা বর্তমানে বুঝতে পারি।

CSVW JSON-LD ফর্ম্যাটে এনকোড করা একটি ছোট সারণীর উদাহরণ নিচে দেওয়া হল। বিশিষ্ট ফলাফল পরীক্ষা/ কিছু পরিচিত সমস্যা আছে।

Search Console-এর সাহায্যে বিশিষ্ট ফলাফল মনিটর করা

Google Search-এ আপনার পৃষ্ঠা কীভাবে কাজ করবে তা মনিটর করতে Search Console নামক একটি টুল সাহায্য করে। Google Search ফলাফলে অন্তর্ভুক্ত হওয়ার জন্য আপনাকে Search Console-এ সাইন-আপ করতে হবে না কিন্তু এটি Google-কে আপনার সাইট আরও ভালভাবে দেখাতে এবং সেটি বুঝতে আপনাকে সাহায্য করবে। আমরা সাজেস্ট করছি, নিচে উল্লেখ করা ঘটনার ক্ষেত্রে Search Console পরীক্ষা করার জন্য:

  1. প্রথমবার স্ট্রাকচার্ড ডেটা ব্যবহার করার পর
  2. নতুন টেমপ্লেট প্রকাশ করা বা আপনার কোড আপডেট করার পর
  3. নির্দিষ্ট সময়ের ব্যবধানে ট্রাফিক বিশ্লেষণ করা

প্রথমবার স্ট্রাকচার্ড ডেটা ব্যবহার করার পর

Google আপনার পৃষ্ঠা ইন্ডেক্স করার পরে, উপযুক্ত বিশিষ্ট ফলাফল সম্পর্কিত স্ট্যাটাস রিপোর্ট সমস্যাগুলি দেখুন। সাধারণত আপনি দেখতে পারবেন সঠিক পৃষ্ঠার সংখ্যা বাড়ছে এবং সতর্কতা বা সমস্যার সংখ্যা বাড়ছে না। আপনার স্ট্রাকচার্ড ডেটাতে সমস্যা দেখতে পেলে:

  1. সমস্যার সমাধান করুন
  2. সমস্যাটির সমাধান হয়েছে কিনা দেখতে লাইভ ইউআরএল পরীক্ষা করুন
  3. স্ট্যাটাস রিপোর্ট ব্যবহার করে যাচাইকরণের অনুরোধ করুন

নতুন টেমপ্লেট প্রকাশ করা বা আপনার কোড আপডেট করার পর

আপনি যখন নিজের ওয়েবসাইটে গুরুত্বপূর্ণ পরিবর্তন করেন, স্ট্রাকচার্ড ডেটা সম্পর্কিত সমস্যা এবং সতর্কতার সংখ্যা বেড়ে যাওয়া মনিটর করুন।
  • যদি দেখেন সমস্যার সংখ্যা বেড়ে গেছে তাহলে, আপনি হয়ত এমন নতুন টেমপ্লেট ব্যবহার করছেন যা কার্যকর নয় অথবা আপনার সাইট আগে থেকে থাকা টেমপ্লেটের সাথে নতুন কিন্তু ভুল পদ্ধতিতে ইন্টার‍্যাক্ট করছে।
  • আপনি যদি দেখেন যে, সঠিক আইটেমের সংখ্যা কমছে (সমস্যা বেড়ে যাওয়ার সাথে মিল নেই), তাহলে হয়ত আপনার পৃষ্ঠাতে আর স্ট্রাকচার্ড ডেটা এম্বেড করা হচ্ছে না। সমস্যার কারণ জানতে ইউআরএল খতিয়ে দেখার টুল ব্যবহার করুন।
  • নির্দিষ্ট সময়ের ব্যবধানে ট্রাফিক বিশ্লেষণ করা

    পারফর্ম্যান্সের রিপোর্ট ব্যবহার করে Google Search ট্রাফিক বিশ্লেষণ করুন। ডেটার সাহায্যে জানতে পারবেন, Search-এ কতক্ষণ পরপর বিশিষ্ট ফলাফল হিসেবে আপনার পৃষ্ঠা দেখানো হবে এবং সার্চের ফলাফলে সাধারণত কোথায় আপনার র‍্যাঙ্ক হবে। আপনি Search Console এপিআই-এর সাহায্যে এই ফলাফল অটোমেটিক নিয়ে আসতে পারেন।

    সমস্যার সমাধান করা

    স্ট্রাকচার্ড ডেটা প্রয়োগ করতে সমস্যা হলে, আপনি সাহায্য পেতে পারেন এমন কিছু রিসোর্স এখানে উল্লেখ করা হল।