DSPL 常見問題

本文件說明資料擁有者建立 DSPL 資料集並上傳至「公開資料瀏覽器」時最常遇到的問題。

目錄

一般問題

什麼是 DSPL?

DSPL 代表資料集發布語言。這是一種表示格式中繼資料 (資料集的相關資訊,例如資料集名稱和提供者,以及包含和顯示概念的概念) 與資料集的實際資料。中繼資料是以 XML 指定,而資料則是以 CSV 格式提供。

使用 DSPL 的主要優點為何?

DSPL 的設計宗旨在於從資料層面以視覺化方式呈現資料,例如 Public Data Explorer。要建立這些項目,就必須對資料片段、維度和指標,以及其他資料集格式不支援的實體提供詳細的中繼資料。

DSPL 也支援資料集匯入作業、概念階層 (例如 「country」是「洲別」的子項)、經過地理編碼的資料,以及其他幾項經過強化的資料探索體驗。

DSPL 會取代用於資料交換和/或分析的其他格式嗎?

通常不是。如前一題所述,DSPL 專為互動式視覺化呈現及探索而設計。不能做為通用的通用資料交換或分析格式。

最終,我們看到 DSPL 與其他格式相輔相成。使用者應該要能夠從其他來源建立 DSPL 資料集,以建立豐富且互動式的資料視覺化內容。

DSPL 資料集的用途

您可以將資料匯入 Public Data Explorer,然後發布該模型,並利用互動式的視覺化資料探索其他資料。您可以將公開的資料集納入 Public Data Directory,方便感興趣的使用者找到這些資料集。

這是目前使用 DSPL 的唯一應用程式。我們鼓勵使用者鼓勵使用者將您的應用程式用於其他應用程式,而且使用率可能會隨著時間不斷增加。

哪類資料集最適合 DSPL?

DSPL 格式支援任意資料表,因此適用於各種資料集類型。然而,只有部分 DSPL 資料集會產生 Public Data Explorer 中有趣的視覺化圖表。後者最適合用於:

  • 量化:每個資料點都有一或多個相關的指標指標 (例如,「人口」、「流感數量」、「收益」)。
  • 類別:資料可分為不同的文字可說的類別 (例如"country", "genders", "ageage")"。
  • 時間序列:每個類別的資料指標都會因時間而有所差異,相鄰的資料點則至少相隔 1 天 (Public Data Explorer 無法以視覺化方式顯示一天內的時間增量),
  • 匯總:每個時間/類別/指標組合都有單一資料點,而非事件或事實清單。

我已建立 DSPL 資料集,並希望顯示在 Google 公開資料目錄中,以便他人尋找。該與誰聯絡?

請填寫這份表單並提供您的資料集連結。

我無法順利使用 DSPL。我需要協助時該怎麼辦?

請前往 DSPL 論壇發文提問。

DSPL 資料集檔案

我該如何對 XML 和 CSV 檔案進行編碼?

所有 XML 和 CSV 檔案都必須採用 UTF-8 編碼,請注意,ASCII (有時稱為「純文字」) 是 UTF-8 的子集,因此採用這種格式的資料集也應能正常運作。

我應該使用哪一種軟體來建立及編輯資料集檔案?

我們建議您使用純文字編輯器,以方便辨識的語法標明 XML 檔案;如要編輯特定平台的建議,請參閱這篇文章。我們不建議使用功能齊全且功能通用的文字處理工具,因為這類處理工具通常會在您的 XML 中插入其他格式設定標記,而這可能會導致匯入錯誤。

一般來說,您可以使用試算表來建立和編輯資料檔案。請務必使用正確的格式儲存資料 (CSV/逗號分隔值)。

我有 Excel、SPSS、SAS 或其他系統的資料。我可以直接匯入公開資料瀏覽器嗎?

不行,目前不會。您必須先將資料匯出為 CSV 格式、新增適當的 XML 中繼資料,然後將符合 DSPL 規定的資料集上傳至 Public Data Explorer。

我可以為我的檔案命名嗎?

您的資料集 XML 檔案的名稱應為 .xml 結尾。相關聯的 CSV 資料檔案可以具有任何名稱,但名稱必須與 XML 中繼資料中 <file> 標記中指定的名稱相符。用來將資料集封裝及匯入至公開資料探索工具的 ZIP 檔案也可以包含任何名稱。

我應該排序 CSV 檔案嗎?

可以。您應按照非時間維度 (以任何順序或方向) 排序 CSV 檔案內容,並且視需要依任何其他資料欄 (例如時間) 排序。

因此,如果您的 CSV 檔案包含 datedimension1dimension2metric1metric2 資料欄,則應依照 dimension1dimension2 排序 (順序不拘)。如要一併依日期/時間欄排序,請使用這個資料欄做為最後排序依據。

以這種方式排序資料可將每個時間序列的觀察結果歸在一組,進而大幅提升 DSPL 匯入程序的效率。

XML 模型和語法

如何決定某項指標和維度?

維度是用來區隔或篩選資料的實體,指標則用來說明與每個資料點相關聯的觀察值或值。

一般而言,維度是類別型,指標則是非類別、時間變化的數值。每種原型的範例如下所示:

  • 維度:國家/地區、州/省、縣市、區域、年度、月份、性別、年齡類別、產業區隔
  • 指標:人口、GDP、失業率、素養、收益、費用、價格

屬性和屬性有何差異?

屬性會附加到概念的每一個執行個體。舉例來說,洲別的屬性會因國家/地區而有不同的值。另一方面,屬性則與整體概念相關聯。 舉例來說,isParent 屬性適用於所有洲別。

代碼的順序為何?

可以。請根據開發人員指南中的標記順序來新增標記。例如,<topic> 應在概念的定義中,於 <type> 之前顯示。

大小寫非常重要嗎?

是。您的 XML 標記和屬性名稱採用的方式必須採用「開發人員指南」中所述的方式。舉例來說,如果在 property 標記中使用 isparent 而不是 isParent,會導致匯入錯誤。

一個概念可以有兩個父項?

不可以。每個概念只能有一個 isParent 參照。

一個概念可以稱呼自己嗎?

可以。如需自我參照的概念階層範例,請參閱美國零售業銷售資料集

資料格式

如何設定日期格式?

日期任何格式皆適用 Joda DateTime 標準。Joda 格式設定程式碼應儲存在對應表格資料欄元素的 format 屬性中。

部分熱門日期格式的 Joda 格式代碼如下:

日期範例 Joda 格式
2010 yyyy
2010 年 5 月 MMM yyyy
2010/05/21 MM/dd/yyyy
2010 年 5 月 21 日 dd/MM/yyyy
2010-05-21 yyyy-MM-dd

請特別注意,月字元的 Joda 代碼是 M,而不是 m (代表分鐘)。

我可以使用少於一天的時間單位嗎?

Joda DateTime 格式以及 DSDS 也支援以毫秒為單位的時間值格式。然而,公開資料瀏覽器無法以視覺化方式呈現時間少於一天的所有精細程度。

使用標準概念

什麼是「正規概念」?這類概念有哪些實用?

「標準概念」是指一組由 Google 所建立的概念,這些概念旨在在其他資料集中做為基本「構成要素」。這些概念本身就在六個 DSPL 資料集中定義。先前的 DSPL 資料集會將先前的資料分門別類,例如「時間」、「地理區域」等。如要取得這些概念,只要在 DSPL XML 檔案開頭匯入適當的父項資料集即可。

標準概念相當實用,因為這樣有助於節省時間 (例如,您不必手動輸入全球每個國家/地區的緯度和經度值),也能指出將您的資料以視覺化方式呈現。舉例來說,「公開資料瀏覽器」會使用 time:... 概念來設定 X 軸的折線圖格式、使用 entity:entity 概念的 name 屬性產生維度挑選器 UI 的字串,以及使用 geo:locationlatitudelongitude 屬性,在地圖視覺化中顯示資料等。

公開資料瀏覽器可以解讀所有標準概念嗎?

雖然公開資料瀏覽器可理解大多數提供的標準概念,但仍有一些資料無法 (以視覺化方式呈現)以下列出這些建議和解決方法:

概念 解決方法
quantity:index 請改用 quantity:ratioquantity:magnitude
time:quarter 使用 DSPL 教戰手冊中的 time:month
time:week 使用 DSPL 教戰手冊中的 time:day

我們日後將持續為這些概念提供更完善的支援服務。

如何在資料集中使用標準概念?

請參閱說明文件瞭解您要使用的特定概念,並參閱 DSPL 教戰手冊,當中針對最常見的概念提供了詳細的逐步指示。

匯入及視覺化呈現資料集

為什麼我無法成功匯入資料集?

Public Data Explorer 的上傳介面會掃描您的 DSPL 資料集,並在偵測到任何錯誤時封鎖其匯入作業。匯入工具對於 XML 檔案中的拼字、大小寫和標記順序 / 位置,以及 CSV 檔案中的版面配置和排序方式來說,都十分敏感,因此可能需要經過幾天才能取得這些資訊,並成功匯入資料集。

解決這些問題的第一步是查看 UI 中的錯誤訊息,並採取適當的修正動作。 由於這些訊息並非最容易理解 (我們積極改善的項目),我們彙整了一份表格,說明最常見訊息:

錯誤 說明
重複的鍵:... 概念的定義表格含有重複的 ID 值 (即資料欄中與概念名稱相同的值)。這些值可用於識別概念中的個別執行個體,因此不得使用重複值。
從資源 [...] 組合造成的資料來源剖析資料列時發生例外狀況,會出現在資料中的多個不同資料列組合中。 您的 CSV 未正確排序。方法請見上述討論
從來源格式無效,導致來源資料剖析時發生例外狀況:「...」的「...」格式錯誤 這個 CSV 檔案的格式 (通常是日期) 與 XML 檔案中指定的格式不一致。變更格式或值,使其相符。
從來源 (...) 中的元素數量導致的資料來源剖析資料列時發生例外狀況,與以下行的指定屬性 (...) 不符:[...] CSV 列中的資料列值過多或過少。請修正這個資料列的格式。
從來源為「輸入字串」產生的來源剖析資料列時發生例外狀況: CSV 中的一個值 (通常是整數或浮點) 包含非數字的字元 (例如:美元符號、百分比符號等),以防無法正確剖析。請移除這些多餘字元。
從來源 S... 的屬性「...」的資料值「...」造成的剖析資料例外狀況,不是所參照概念「...」的鍵值。 您的其中一個片段包含無法辨識的維度值 (例如未列於對應概念所有可能值的清單中。返回維度概念定義表格,並視需要新增值。
資料中的標題「...」是常態的屬性 CSV 中的欄標題與 XML 表格定義中定義的欄 ID 不符。請變更其中一個版本,以便與兩者相符。
XML 剖析錯誤... 以「...」元素開頭的內容無效。 應為「{...}」、「{...}」、 一個。 參照的 XML 元素不正確。檢查並確認順序正確無誤,且元素有正確的父項 (例如「name」的 info)。
XML 剖析錯誤... 屬性「...」不允許出現在元素「...」中。 這個 XML 標記屬性的拼字、大小寫或位置不正確。請參閱說明文件,瞭解相關使用情形。
XML 剖析錯誤。...元素「...」不得包含字元 [children],因為其類型的內容僅限元素。 您的 XML 檔案中有部分文字 (可能是缺少 <> 的標記所導致)。請修正文字,然後再試一次。

如果您不瞭解上述清單中的郵件,請前往 DSPL 論壇發文提問,我們會盡力提供協助。

我的資料集已成功匯入,但我在「公開資料瀏覽器」中找不到任何視覺化內容。為什麼會出現這樣的情況?

如果您的資料集是有效的 DSPL,但不在公開資料瀏覽器中的可視 DSPL 子集中,就會發生這個問題。造成這種情況的原因有很多,最常見的原因如下:

  • 在沒有資料表的情況下定義維度概念:如果沒有這項資訊,Public Data Explorer 並不知道要在使用者介面中顯示哪些選項。
  • 建立僅包含指標的資料集:「公開資料瀏覽器」需要至少一個在資料集內定義的類別 (即非時間) 維度,才能正確建構視覺化的 UI。
  • 在片段中不納入時間維度:公開資料瀏覽器只能以視覺化方式呈現時間序列。非產品片段將會由產品忽略。
  • 使用標準 time:... 以外的時間維度:Public Data Explorer 會使用標準 time 概念,為產品進行各種視覺化呈現和動畫作業,無法解讀其他時間概念,例如在您自己的資料集中建立的概念。
  • 使用太大或太小的時間值:Public Data Explorer 尚未以視覺化方式顯示時間精細程度低於 1 的資料集,在頻譜的另一端,工具具有很高的年份值 (例如數萬次) 問題。我們希望日後能提高這些精細程度。

如何將視覺資料集整合到我的網站中?

請參閱公開資料瀏覽器說明中心的這篇文章。如後面所述,您可以手動調整嵌入網址,取得「完整嵌入」(也就是包含探索控制項的嵌入項目)。