このドキュメントでは、データ所有者が DSPL データセットを作成して、Public Data Explorer にアップロードする際に、データオーナーが直面する最も一般的な問題を取り上げます。
目次
一般的な質問
DSPL とは
DSPL は Dataset Publishing Language の略です。これは、メタデータ(データセットに関する情報(データセットの名前と情報、データセットに含まれるコンセプトなど))とデータセットの実際のデータの表現形式になります。メタデータは XML で指定され、データは CSV 形式で提供されます。
DSPL を使用する主な利点は何ですか。
DSPL は、Public Data Explorer に用意されているようなデータの可視化をゼロから設計されています。これらを作成するには、スライス、ディメンション、指標など、他のデータセット形式ではサポートされていない、詳細なメタデータが必要です。
DSPL は、データセットのインポート、コンセプト階層(例:「country」は「大陸」の子、ジオコードされたデータ、データ探索を強化する拡張機能です。
DSPL は、データ交換や分析に使用される他の形式に代わるものですか?
通常はできません。前の回答で説明したように、DSPL はインタラクティブな可視化と探索用に設計されています。これは、汎用的なデータの交換や分析形式として意図されたものではありません。
最終的に、DSPL は他の形式を補完する役割があるとみなされます。リッチでインタラクティブなデータの可視化を目的として、他のソースから DSPL データセットを作成できるようにする必要があります。
DSPL データセットでできること
これを Public Data Explorer にインポートして公開できます。また、高品質でインタラクティブな可視化によって他のユーザーがデータを探索できるようになります。公開されたデータセットを一般公開データ ディレクトリに含めることで、関心のあるユーザーがデータセットを検索することもできます。
現在、これは DSPL を使用する唯一のアプリケーションです。ただし、Google はこれを他のアプリケーションにも利用することをおすすめしています。今後導入が拡大すると予想されます。
DSPL に最適なデータセットのタイプは何ですか?
DSPL 形式は任意のテーブル コレクションをサポートしているため、さまざまなデータセット タイプに適しています。ただし、DSPL データセットのサブセットでのみ、Public Data Explorer で興味深い可視化を行うことができます。特に、後者のプロダクトは、次のようなデータに最適です。
- 定量的:各データポイントには、1 つ以上の数値指標(「人口」、「インフルエンザの症例数」、「収益」)。
- カテゴリ: データをテキストで記述可能な有限数のカテゴリ(「国」、「性別」、「年齢層」など)。
- 時系列: カテゴリごとに、データの指標が時間の関数として変化します。また、隣接する地点が 1 日以上離れている(Public Data Explorer では 1 日よりも短い時間の増分を可視化できません)
- 集計: 時間 / カテゴリ / 指標の組み合わせごとに、イベントやファクトのリストではなく、単一のデータポイントがあります。
DSPL データセットを作成して、他のユーザーが Google 一般公開データ ディレクトリに表示できるようにしたいと考えています。どこに問い合わせればよいですか?
こちらのフォームに記入し、データセットへのリンクを入力してください。
DSPL で問題が発生しています。サポートが必要な場合はどうすればよいですか?
DSPL ディスカッション フォーラムに問題を報告してください。
DSPL データセット ファイル
XML ファイルと CSV ファイルをエンコードするにはどうすればよいですか?
XML ファイルと CSV ファイルはすべて UTF-8 でエンコードされている必要があります。ASCII(「プレーン テキスト」と呼ばれることもあります)は UTF-8 のサブセットであるため、この形式のデータセットも使用できます。
データセット ファイルの作成と編集には、どのソフトウェアを使用する必要がありますか?
XML ファイルの編集には、読みやすくするために構文をハイライト表示した書式なしテキスト エディタを使用することをおすすめします。プラットフォーム固有の推奨事項については、こちらの記事をご覧ください。すべての機能を備えた汎用ワード プロセッサは、XML に追加のフォーマット タグを挿入してインポート エラーを引き起こす可能性があるため、使用しないことをおすすめします。
スプレッドシートは、一般的にデータファイルの作成と編集に最も簡単な方法です。適切な形式(CSV / カンマ区切り値)で保存してください。
Excel、SPSS、SAS などのシステムにデータがあります。これらのデータを Public Data Explorer に直接インポートできますか?
現時点では使用できません。まず、データを CSV 形式でエクスポートしてから、適切な XML メタデータを追加してから、DSPL 準拠のデータセットを公開データ エクスプローラにアップロードする必要があります。
自分のファイル名は関係ありませんか?
データセット XML ファイルの名前は .xml
で終わる必要があります。関連する CSV データファイルには、XML メタデータの <file>
タグで指定した名前と一致する任意の名前を付けることができます。データセットのパッケージ化と Public Data Explorer へのインポートに使用する ZIP ファイルにも任意の名前を付けることができます。
CSV ファイルを並べ替える必要がありますか?
はい。CSV ファイルのコンテンツを時間以外のディメンション(順序や方向)で並べ替えてから、他の列(時間など)で並べ替えることをおすすめします。
たとえば、date
、dimension1
、dimension2
、metric1
、metric2
列を持つ CSV がある場合は、dimension1
と dimension2
を(任意の順序で)並べ替える必要があります。日時列で並べ替える場合は、最後に並べ替える必要があります。
このように並べ替えると、各時系列のグループ化がグループ化され、DSPL のインポート プロセスの効率が大幅に向上します。
XML モデルと構文
指標とディメンションは、どのように決めればよいですか?
ディメンションは、データのセグメント化またはフィルタリングに使用されるエンティティです。一方、指標は、観測された各データポイントに関連付けられた値を記述します。
一般に、ディメンションはカテゴリですが、指標はカテゴリではなく時間で変化する数値です。それぞれのプロトタイプの具体例は次のとおりです。
- ディメンション: 国、州、郡、地域、年、月、性別、年齢カテゴリ、業界セグメント
- 指標: 人口、GDP、失業率、リテラシー、収益、費用、価格
プロパティと属性の違いは何ですか?
プロパティは、コンセプトの各インスタンスに関連付けられます。たとえば、大陸のプロパティは国ごとに異なる値を持ちます。一方、属性はコンセプト全体に関連付けられます。
たとえば、isParent
属性はすべての大陸に true です。
タグの順序は重要ですか?
はい。デベロッパー ガイドに表示されている順序でタグを追加します。たとえば、<topic>
はコンセプトの定義で <type>
の前に配置する必要があります。
大文字と小文字は区別されますか?
はい。XML タグと属性名は、デベロッパー ガイドに表示されているのと同じ方法で大文字にする必要があります。たとえば、property
タグで isParent
ではなく isparent
を使用すると、インポート エラーが発生します。
1 つのコンセプトで親を 2 つ設定できますか?
いいえ。各コンセプトは 1 つの isParent
参照のみを持つことができます。
概念そのものを表すか
はい。自己参照のコンセプト階層の例については、米国の小売販売のデータセットをご覧ください。
データ形式
日付の表示形式を設定するにはどうすればよいですか?
日付は、Joda DateTime 標準で記述できる任意の形式で記述できます。Joda フォーマット コードは、対応するテーブルの列要素内の format
属性に保存する必要があります。
一般的な日付形式の Joda 形式コードを以下に示します。
日付の例 | Joda 形式 |
---|---|
2010 年 | yyyy |
2010 年 5 月 | MMM yyyy |
2010 年 5 月 21 日 | MM/dd/yyyy |
2010 年 5 月 21 日 | dd/MM/yyyy |
2010-05-21 | yyyy-MM-dd |
特に、月の文字の Joda コードは、m
(分を表す)ではなくM
であることに注意してください。
1 日よりも短い時間単位を使用できますか?
Joda DateTime 形式(したがって DSPL も含む)では、ミリ秒単位の時間値がサポートされます。ただし、Public Data Explorer では 1 日未満の粒度は可視化できません。
正規の概念の使用
「正規のコンセプト」とはどのようなもので、どのように役立つかです。
「正規の概念」という用語は、他のデータセットで基本的な「構成要素」として意図された、Google が作成した一連の概念を指します。コンセプト自体は、6 つの DSPL データセット全体で定義されています。前者は「時間」、「地域」などのカテゴリにグループ化されています。これらのコンセプトにアクセスするには、DSPL XML ファイルの先頭にある適切な親データセットをインポートします。
正規の概念は、たとえば世界 1 か所の各国について緯度と経度の値を手動で入力する必要がないという点で時間を節約でき、かつデータを可視化する方法を示すという点でも有用です。たとえば、Public Data Explorer は time:...
コンセプトを使用して折れ線グラフの X 軸をフォーマットします。また、entity:entity
コンセプトの name
プロパティを使用してディメンション選択ツールの UI 用の文字列を生成し、geo:location
の latitude
プロパティと longitude
プロパティを使用してマップのビジュアリゼーションにデータを表示します。
すべての標準的な概念を Public Data Explorer が理解していますか?
提供されている正規の概念のほとんどは、公共データ エクスプローラによって理解されていますが、可視化されていない(まだ視覚化されていない)ものもあります。回避策と推奨回避策を以下に示します。
コンセプト | 回避策 |
---|---|
quantity:index |
代わりに quantity:ratio または quantity:magnitude を使用してください。 |
time:quarter |
DSPL クックブックの説明に沿って、time:month を使用します。 |
time:week |
DSPL クックブックの説明に沿って、time:day を使用します。 |
今後、これらコンセプトのサポートはさらに改善される予定です。
データセットで正規のコンセプトを使用するにはどうすればよいですか?
使用したい概念については、ドキュメントをご覧ください。また、一般的な手順については、DSPL クックブックの詳細な手順をご確認ください。
データセットのインポートと可視化
データセットを正常にインポートできないのはなぜですか?
Public Data Explorer のアップロード インターフェースは、DSPL データセットをスキャンし、エラーが検出された場合はインポートをブロックします。インポータは、XML ファイル内のスペル、大文字アルファベットの使用方法、タグの順序 / 配置のほか、CSV ファイル内のデータのレイアウトや並べ替えの影響を受けやすいため、正しくインポートしてデータセットを正常にインポートするには数パスかかることがあります。
この問題を解決するための最初のステップは、UI に表示されるエラー メッセージを確認し、適切な是正措置を講じることです。これらのメッセージは、必ずしも簡単に理解できるわけではないため(現在改善に取り組んでおり)、最も一般的なものを説明する表をまとめました。
エラー | 解説 |
---|---|
キーが重複しています: ... | コンセプトの定義テーブルに、繰り返しの ID 値(コンセプトと同じ名前の列の値)がある。これらの値は、コンセプトの個々のインスタンスを一意に識別するために使用されるため、重複は許可されません。 |
プロパティ [...] の組み合わせによるソースからのデータ行の解析における例外は、データ内の異なる行のグループ内に複数表示されます。 | CSV が適切に並べ替えられていない。手順については、上記の説明をご覧ください。 |
無効な形式が原因でソースからデータ行を解析する際の例外: 「...」は「...」で不適切な形式です | CSV 内のこの値(通常は日付)の形式が、XML ファイルで指定されている形式と一致していません。一致するように形式または値を変更します。 |
行内の要素の数(...)が、行 [...] で指定されたプロパティの数(...)と一致しないため、ソースからのデータ行の解析が例外になりました | CSV 内の行に値が多すぎたり少なすぎたりします。この行の形式を修正します。 |
入力文字列「...」が原因でソースからデータ行を解析する際の例外 | CSV の値(通常は整数または浮動小数点数)に数字以外の文字(ドル記号、パーセント記号など)が含まれているため、解析が正しく行われません。余分な文字を削除してください。 |
スライス「...」のプロパティ「...」のデータ値「...」に起因するソースからデータ行を解析する際の例外は、参照されるコンセプト「...」のキー値ではありません。 | スライスの 1 つのディメンションに認識できないディメンションの値が含まれています(。ディメンションのコンセプト定義テーブルに戻り、必要に応じて値を追加します。 |
データのヘッダー「...」は表の定数プロパティです | CSV の列見出しが、XML テーブル定義で定義されている列 ID と一致していません。両者が一致するように一方を変更します。 |
XML 解析エラーです... 要素「...」で始まる無効なコンテンツが見つかりました。「{...}」、「{...}」のいずれか、または両方が必要です。 | 参照される XML 要素が正しい場所にありません。順序が正しいこと、また要素に正しい親が設定されていることを確認します(例:info (name )。 |
XML 解析エラー ... 属性「...」を要素「...」に含めることはできません。 | この XML タグ属性のスペル、大文字、小文字、位置が正しくありません。適切な使用方法については、ドキュメントをご確認ください。 |
XML 解析エラー。要素のコンテンツ タイプが要素のみであるため、要素「...」に文字 [children] を含めることはできません。 | XML ファイルに不要なテキストが含まれています(タグに < または > がないことが原因である可能性があります)。テキストを修正してからもう一度お試しください。 |
上記のリストにないメッセージについて不明な点がある場合は、DSPL フォーラムにメッセージを投稿してください。Google がサポートいたします。
データセットは正常にインポートされていますが、Public Data Explorer にグラフを表示することができません。どうなっているのでしょうか?
この問題は、データセットが有効な DSPL であるにもかかわらず、Public Data Explorer で可視化できる DSPL の一部に含まれていない場合に発生します。これにはさまざまな原因が考えられますが、最も一般的な原因は次のとおりです。
- 表を使用しないディメンション コンセプトの定義: この情報がなければ、Public Data Explorer は UI に表示する選択肢を認識しません。
- 指標のみを含むデータセットの作成: 一般公開 Data Explorer では、データセットのどこかに 1 つ以上のカテゴリ(非時間型)ディメンションが定義され、可視化 UI が適切に構造化されています。
- スライスに時間ディメンションを含めない: Public Data Explorer で可視化できるのは時系列のみです。プロダクトでタイム以外のスライスは無視されます。
- 正規の
time:...
以外の時間ディメンションを使用する:Public Data Explorer は、プロダクトのさまざまなビジュアリゼーションをレイアウトしてアニメーション化するために、正規のtime
コンセプトを使用します(他のデータセットのコンセプトを作成するなど)。 - 時間値が大きすぎる、または小さすぎる: Public Data Explorer では、1 日未満の時間粒度を持つデータセットはまだ可視化されません。その一方で、ツールでは数年分の数値(数万単位など)に悩まされています。今後、こうした粒度をより柔軟に設定できるようにしたいと考えています。
可視化したデータセットをウェブサイトに統合するにはどうすればよいですか?
Public Data Explorer ヘルプセンターのこちらの記事をご覧ください。後者で説明したように、埋め込み URL を手動で調整することで、「完全な埋め込み」(データ探索コントロールを含むもの)を取得できます。