資料集

如果您以結構化資料的形式提供資料集的名稱、說明、建立者和發布格式等輔助資訊,就能讓 Google 更容易找到資料集。Google 發掘資料集的做法是使用 schema.org,以及可新增至資料集說明頁面的其他中繼資料標準。這個標記的目的,是要提高生命科學、社會科學、機器學習、市政資料等領域資料集的曝光率。

以下列舉一些可算是資料集的情況:

  • 包含一些資料的表格或 CSV 檔案
  • 一組經過整理的表格
  • 採某種專利格式且包含資料的檔案
  • 可構成有意義資料集的一組檔案
  • 包含其他格式資料的結構化物件,可載入特殊工具進行處理
  • 擷取資料的圖片
  • 與機器學習相關的檔案,例如訓練過的參數或類神經網路結構定義
  • 您覺得像資料集的任何內容

我們發掘資料集的做法

我們可以使用 schema.org 資料集標記W3C資料目錄詞彙 (DCAT) 格式所代表的對等結構,判讀網頁中有關資料集的結構化資料。我們同時也在探索如何根據 W3C CSVW 針對結構化資料提供實驗性支援,並希望隨著最佳資料集說明做法的問世,改進及調整我們的做法。如要進一步瞭解我們發掘資料集的做法,請參閱提高公開資料集的曝光率一文。

範例

以下是在結構化資料測試工具中使用 JSON-LD 語法 (建議) 的資料集範例。相同的詞彙也可用於 RDFa 1.1、微資料或 W3C DCAT 詞彙。以下範例是根據實際資料集說明而來。

JSON-LD

以下是 JSON-LD 格式的資料集範例:

RDFa

以下是 RDFa 格式的資料集範例:

規範

網站應遵循結構化資料指南。除了結構化資料指南以外,建議您另外遵循下方所列的 Sitemap來源與出處最佳做法。

Sitemap 最佳做法

請使用 Sitemap 檔案協助 Google 尋找您的網址。使用 Sitemap 檔案和 sameAs 標記有助於記錄資料集說明在整個網站中的發布情形。

如果您有資料集存放區,就很可能至少有兩種網頁:各個資料集的標準 (「到達」) 網頁,和列出多個資料集的網頁 (例如搜尋結果或部分資料集)。建議您在標準網頁中新增有關資料集的結構化資料。如要在多個資料集副本中新增結構化資料 (例如搜尋結果頁面中的資訊),請使用 sameAs 屬性連結至標準網頁。

來源和出處最佳做法

開放式資料集經常會重新發布、匯總,以及以其他資料集為基礎。以下簡單說明我們如何表示資料集是其他資料集的複本還是以其他資料集為基礎。

  • 如果資料集或說明是直接將他處發布的內容重新發布而來,請使用 sameAs 屬性表示最標準的原始內容網址。
  • 如果重新發布的資料集 (包括其中繼資料) 經過大幅變動,請使用 isBasedOn 屬性。
  • 如果資料集衍生自或匯總了多個原始資料集,請使用 isBasedOn 屬性。
  • 使用 identifier 屬性附加任何相關的數位物件 ID (DOI) 或精簡 ID。如果資料集有多個 ID,請重複使用 identifier 屬性。採用 JSON-LD 格式時,請透過 JSON 清單語法表示這個屬性。

我們希望根據意見回饋改進我們的建議,特別是有關出處、版本和時間序列發布相關日期說明的建議,歡迎參與社群討論

文字屬性建議

所有文字屬性的建議長度上限為 5000 個字元。Google 資料集搜尋只會使用任何文字屬性中的前 5000 個字元。名稱和標題通常是幾個字或簡短的句子。

已知錯誤和警告

您可能會在 Google 的結構化資料測試工具和其他驗證系統中碰到錯誤或收到警告。具體而言,驗證系統可能會建議機構要有包含 contactType 的聯絡資訊;實用的值包括 customer serviceemergencyjournalistnewsroompublic engagement。您也可以忽略 csvw:TablemainEntity 屬性非預期值的錯誤。

結構化資料類型定義

您的內容必須包含必要的屬性,才能以複合式搜尋結果的形式呈現。您也可以加入建議的屬性以新增內容的其他相關資訊,進而讓使用者享有更優質的體驗。

您可以使用結構化資料測試工具驗證標記。

重點在於說明資料集相關資訊 (其中繼資料) 和表示其內容。例如,資料集中繼資料會指出資料集的內容、測量的變數、建立者等,但不包含變數的特定值。

資料集

schema.org/Dataset 內提供 Dataset 的完整定義。

您可以說明其他資料集發布相關資訊,例如授權、發布時間、其 DOI,或指向其他存放區中標準版本資料集的 sameAs。如果資料集提供出處和授權資訊,請新增 identifierlicensesameAs

必要屬性
description Text

資料集的簡短摘要。

規範

  • 摘要長度必須介於 50 至 5000 個半形字元之間。
  • 摘要可包含 Markdown 語法。嵌入的圖片必須使用絕對路徑網址 (而非相對路徑)。
  • 採用 JSON-LD 格式時,請透過 \n (兩個半形字元:反斜線和小寫「n」字母) 表示新的一行。
name Text

資料集的描述性名稱,例如 "北半球的雪深"。

建議屬性
alternateName Text

用來參照此資料集的替代名稱,例如別名或縮寫。JSON-LD 格式的範例如下:

"name": "The Quick, Draw! Dataset"
"alternateName": ["Quick Draw Dataset", "quickdraw-dataset"]
creator PersonOrganization

這個資料集的建立者或作者。如要識別每位不重複的使用者,請使用 ORCID ID 做為 Person 類型的 sameAs 屬性值。如要識別不重複的組織和機構,請使用 ROR ID。JSON-LD 格式的範例如下:

"creator": [
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0000",
        "givenName": "Jane",
        "familyName": "Foo",
        "name": "Jane Foo"
    },
    {
        "@type": "Person",
        "sameAs": "http://orcid.org/0000-0000-0000-0001",
        "givenName": "Jo",
        "familyName": "Bar",
        "name": "Jo Bar"
    },
    {
        "@type": "Organization",
        "sameAs": "http://ror.org/xxxxxxxxx",
        "name": "Fictitious Research Consortium"
    }
]
citation TextCreativeWork

除了資料集本身以外,如果資料供應商也建議您引用其他學術文章,您就可以使用這個屬性識別這些文章。如要提供資料集本身的引用資訊,請使用 nameidentifiercreatorpublisher 等其他屬性。舉例來說,這個屬性可專門用於識別相關學術出版品,例如資料描述元、資料論文,或者將這個資料集列為補充內容的文章。JSON-LD 格式的範例如下:

"citation": "https://doi.org/10.1111/111"
"citation": "https://identifiers.org/pubmed:11111111"
"citation": "https://identifiers.org/arxiv:0111.1111v1"
"citation":
 "Doe J (2014) Influence of X ... https://doi.org/10.1111/111"

其他規範

  • 請勿使用此屬性提供資料集本身的引用資訊。這個屬性是用於識別相關學術文章,而非資料集本身。如要在引用資料集本身時提供相關必要資訊,請改用 nameidentifiercreatorpublisher 屬性。
  • 在引用屬性中填入引用文字片段時,請儘量提供文章 ID (例如 DOI)。

    建議的填寫方式:"Doe J (2014) Influence of X. Biomics 1(1). https://doi.org/10.1111/111"

    不建議的填寫方式:"Doe J (2014) Influence of X. Biomics 1(1)."

identifier URLTextPropertyValue

資料集 ID,例如 DOI 或精簡 ID。如果資料集有多個 ID,請重複使用 identifier 屬性。採用 JSON-LD 格式時,請透過 JSON 清單語法表示這個屬性。

keywords Text

可摘述資料集內容的關鍵字。

license URLCreativeWork

用來發布資料集的授權。例如:

"license" : "https://creativecommons.org/publicdomain/zero/1.0/"
"license" : {
  "@type": "CreativeWork",
  "name": "Custom license",
  "url": "https://example.com/custom_license"
  }
sameAs URL

提供同一資料集 (通常位於其他存放區) 其他相關資訊的網頁連結。

spatialCoverage TextPlace

您可以提供單一座標點來說明資料集的空間特徵。只有具有空間維度的資料集需要加入這項屬性。例如,用來收集所有測量資料的單一座標點,或特定區域界框的座標。

座標點

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoCoordinates",
    "latitude": 39.3280,
    "longitude": 120.1633
  }
}

形狀

使用 GeoShape 說明不同形狀的區域,例如指定一個界框。

"spatialCoverage:" {
  "@type": "Place",
  "geo": {
    "@type": "GeoShape",
    "box": "39.3280 120.1633 40.445 123.7878"
  }
}

如要表示 boxcirclelinepolygon 屬性中的座標點,您必須將依序對應經度和緯度的兩個值搭配成一組,並在兩組值之間加上分隔用的空格。

指定位置

"spatialCoverage:" "Tahoe City, CA"
temporalCoverage Text

資料集中的資料涵蓋特定時間間隔。只有具有時間維度的資料集需要加入這項屬性。Schema.org 是使用 ISO 8601 來說明時間間隔和時間點。視資料集間隔而定,您可以使用不同方式說明資料集。如要表示開放式間隔,請使用兩個小數點 (..)。

單一日期

"temporalCoverage" : "2008"

時間範圍

"temporalCoverage" : "1950-01-01/2013-12-18"

開放式時間範圍

"temporalCoverage" : "2013-12-19/.."
variableMeasured TextPropertyValue

這個資料集測量的變數,例如溫度或壓力。

version TextNumber

資料集的版本號碼。

url URL

可說明資料集的網頁位置。

DataCatalog

schema.org/DataCatalog 內提供 DataCatalog 的完整定義。

資料集往往會發布至包含許多其他資料集的存放區。同一資料集可包含在多個這類存放區中。您可以直接參照這個資料集所屬的資料目錄。

建議屬性
includedInDataCatalog DataCatalog

資料集所屬的目錄。

DataDownload

schema.org/DataDownload 內提供 DataDownload 的完整定義。除了資料集屬性以外,請為提供下載選項的資料集另外新增下列屬性。

distribution 屬性是用來說明如何取得資料集本身,因為網址往往會指向說明資料集的到達網頁。distribution 屬性會說明資料的存放位置和格式。這項屬性可以有多個值,例如 CSV 版本和 Excel 版本分別可透過不同網址取得。

必要屬性
distribution.contentUrl URL

下載連結。

屬性
distribution DataDownload

資料集下載位置和下載檔案格式的說明。

distribution.encodingFormat TextURL

發布內容的檔案格式。

表格式資料集

表格式資料集是主要由資料列與資料欄格線構成的資料集。如果網頁嵌入了表格式資料集,您也可以根據上述基本做法建立更明確的標記。目前我們能夠判讀 HTML 網頁中與使用者導向表格內容並行提供的 CSVW 變化版本 (CSVW 為「網路 CSV」,詳情請參閱 W3C)。

以下是以 CSVW JSON-LD 格式編碼的小型表格範例。目前結構化資料測試工具中有一些已知錯誤

說明與工具