Dataset

データセットの名前、説明、作成者、配布形式などのサポート情報を構造化データとして提供すると、データセットを見つけやすくなります。Google のデータセット検出アプローチでは、schema.org とその他のメタデータ規格を利用します。これらは、データセットを記述するページに追加できます。Dataset マークアップの目的は、生命科学、社会科学、機械学習、市民および政府のデータなど、各種分野のデータセットを検出しやすくすることにあります。

データセットと見なすことができるものには、以下のようなものがあります。

  • データが格納されているテーブルまたは CSV ファイル
  • テーブルの組織的なコレクション
  • データが格納されている固有の形式のファイル
  • 意味を持つデータセットを全体として構成するファイルのコレクション
  • 構造化オブジェクトと他の形式のデータの組み合わせ(処理を行うには特別なツールに読み込むことをおすすめします)
  • データをキャプチャする画像
  • 機械学習に関連するファイル(学習済みパラメータやニューラル ネットワークの構造定義など)
  • データセットのように見えるすべてのもの

Google のデータセット検出アプローチ

Google では、ウェブページ内のデータセットに関する構造化データを理解するために、schema.org の Dataset マークアップ、または W3CData Catalog Vocabulary(DCAT)形式で表現された同等の構造を使用します。また、Google は W3C CSVW に基づく構造化データを試験的にサポートしており、データセットの記述に関するおすすめの方法が現れたときに Google のアプローチを進化および適応させることを期待しています。Google のデータセット検出アプローチについて詳しくは、一般公開データセットを検出しやすくする方法についてのブログをご覧ください。

JSON-LD 構文(推奨)を使用してデータセットを記述した場合、構造化データ テストツールでは次のように表示されます。RDFa 1.1、microdata、W3C DCAT ボキャブラリでも同じボキャブラリを使用できます。次の例は、実際のデータセットの記述に基づいています。

JSON-LD

JSON-LD でデータセットを記述した場合、構造化データ テストツールでは次のように表示されます。

RDFa

RDFa でデータセットを記述した場合、構造化データ テストツールでは次のように表示されます。

ガイドライン

サイトは構造化データのガイドラインに準拠する必要があります。さらに、下記のサイトマップおよびソースと起源に関するおすすめの方法にも準拠することをおすすめします。

サイトマップに関するおすすめの方法

サイトマップ ファイルを使用すると、Google が URL を見つけやすくなります。また、サイトマップ ファイルと sameAs マークアップを使用すると、データセットの記述がサイト全体でどのように公開されているかを文書化することができます。

データセット リポジトリを使用している場合は、少なくとも 2 種類のページが存在する可能性があります(各データセットの正規(「ランディング」)ページと、複数のデータセット(例: 検索結果、データセットのなんらかのサブセット)がリストされているページ)。データセットに関する構造化データは正規ページに追加することをおすすめします。構造化データをデータセットの複数のコピー(検索結果ページ内のリストなど)に追加する場合は、sameAs プロパティを使用して正規ページにリンクします。

ソースと起源に関するおすすめの方法

オープン データセットを再公開、集約したり、他のデータセットに基づくよう変更したりすることはよくあります。これは、データセットが別のデータセットのコピーであること(または別のデータセットに基づくものであること)を示すためのアプローチの初期段階です。

  • データセットや記述が他のどこかで公開された素材を単に再公開したものである場合は、sameAs プロパティを使用して、オリジナルのほとんどの正規 URL を指定します。
  • 再公開されたデータセット(そのメタデータを含む)が大幅に変更された場合は、isBasedOn プロパティを使用します。
  • データセットが複数のオリジナルから派生したものである場合、または複数のオリジナルを集約したものである場合は、isBasedOn プロパティを使用します。
  • identifier プロパティを使用して、関連性のあるデジタル オブジェクト識別子(DOI)をすべて添付します。

Google は、フィードバックに基づいて推奨事項(特に、起源の記述、バージョニング、および時系列公開に関連付けられている日付に関するもの)を改善したいと考えています。コミュニティのディスカッションにぜひご参加ください。

既知のエラーと警告

Google の構造化データ テストツールやその他の検証システムにおいて、エラーや警告が発生することがあります。特に、fileFormat(最近、名前が encodingFormat に変更されました)に関する警告は無視して構いません。また、組織で連絡先情報(contactType など)を使用するように検証システムが提案することもあります。有用な値には、customer serviceemergencyjournalistnewsroompublic engagement などがあります。csvw:TablemainEntity プロパティの予期しない値に設定されるエラーも無視して構いません。

構造化データタイプの定義

コンテンツがリッチリザルトとして表示されるようにするには、必須プロパティを含める必要があります。また、推奨プロパティを使用すると、コンテンツに関する詳細情報を追加できるので、ユーザー エクスペリエンスの向上につながります。

構造化データ テストツールを使用して、マークアップを検証することができます。

データセット(そのメタデータ)に関する情報を記述し、そのコンテンツを表現することに焦点を当てます。たとえば、データセットのメタデータでは、データセットの内容、データセットで測定する変数、データセットの作成者などを記述します。変数の特定の値などは含めません。

Dataset

Dataset の完全な定義は schema.org/Dataset で確認できます。

データセットの公開に関する詳細情報(ライセンス、公開日、DOI、別のリポジトリに格納されているデータセットの正規バージョンを指している sameAs など)を記述できます。起源やライセンスの情報を提供するデータセット用に identifierlicensesameAs を追加します。

必須プロパティ
description Text

データセットの要約文。

name Text

データセットのわかりやすい名前。例: "Snow depth in Northern Hemisphere"

推奨プロパティ
citation Text または CreativeWork

データセットを説明する出版物の引用。例: "J.Smith 'How I created an awesome dataset', Journal of Data Science, 1966"

identifier URLText、または PropertyValue

データセットの識別子(DOI など)。

keywords Text

データセットの概要を示すキーワード。

license URLText

データセットの配布ライセンス。

sameAs URL

同じデータセット(通常は別のリポジトリに格納されている)に関する詳細情報を提供するページへのリンク。

spatialCoverage TextPlace

データセットの空間様相を記述する単一のポイントを指定できます。このプロパティは、データセットに空間ディメンションが含まれている場合にのみ追加します。たとえば、すべての測定結果が収集された単一のポイントや、ある領域の境界ボックスの座標などを指定します。

ポイント

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

座標

GeoShape を使用して、さまざまな形状の領域を記述します。たとえば、境界ボックスを指定します。

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

名前のある場所

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

データセットのデータは、特定の期間を対象として含みます。このプロパティは、データセットに時間ディメンションが含まれている場合にのみ追加します。schema.org では、期間や時点を記述するために ISO 8601 規格を使用しています。データセットの期間に応じて日付を別々に記述できます。無期限の期間は、2 つの小数点(..)を使用して示します。

単一の日付

"temporalCoverage" : "2008"

期間

"temporalCoverage" : "1950-01-01/2013-12-18"

無期限の期間

"temporalCoverage" : "2013-12-19/.."
variableMeasured TextPropertyValue

データセットが測定する変数(温度や圧力など)。

version TextNumber

データセットのバージョン番号。

url URL

データセットを記述するページの場所。

DataCatalog

DataCatalog の完全な定義は schema.org/DataCatalog で確認できます。

多くの場合、データセットは他の多くのデータセットが格納されているリポジトリで公開されます。同じデータセットをそのような複数のリポジトリに含めることができます。データセットが属しているデータカタログを参照するには、直接参照します。

推奨プロパティ
includedInDataCatalog DataCatalog

データセットが属しているカタログ。

DataDownload

DataDownload の完全な定義は schema.org/DataDownload で確認できます。Dataset プロパティに加え、ダウンロード オプションを提供する、以下のデータセット用のプロパティを追加します。

distribution プロパティでは、データセット自体を取得する方法を記述します。これは、URL がデータセットを記述するランディング ページを指していることが多いためです。distribution プロパティでは、データをどこでどの形式で取得するかを記述します。このプロパティでは複数の値を使用できます。たとえば、CSV バージョンで 1 つの URL を使用し、Excel バージョンを別の URL で使用できます。

必須プロパティ
distribution.contentUrl URL

ダウンロードのリンク。

プロパティ
distribution DataDownload

データセットのダウンロードの場所と、ダウンロードのファイル形式の記述。

distribution.fileFormat Text

配布のファイル形式。

表形式のデータセット

表形式のデータセットは、主に行と列のグリッドを単位として構成されたデータセットです。表形式のデータセットが埋め込まれているページでは、上記の基本的なアプローチを基に、より明示的なマークアップを作成することもできます。現時点では、HTML ページでユーザー指向の表形式コンテンツと並行して提供される、CSVW(「CSV on the Web」、W3C を参照)のバリエーションと解釈しています。

次の例は、CSVW JSON-LD 形式でエンコードされた小規模なテーブルを示しています。構造化データ テストツールには既知のエラーがいくつかあります。

ヘルプとツール

フィードバックを送信...