データ ダンプ

データダンプは、Freebase のデータをダウンロード可能なバージョンにしたものです。これらは、Freebase に保存されているデータと、そのデータを構造化するスキーマのスナップショットであり、同じ CC-BY ライセンスで提供されています。Freebase/Wikidata のマッピングは CC0 ライセンスに基づいて提供されます。

  1. Freebase Triples
  2. Freebase の削除済みトリプル
  3. Freebase/Wikidata のマッピング
  4. ライセンス
  5. 引用

Freebase Triples

このデータセットには、現在 Freebase に存在するすべてのファクトが含まれています。
  • 合計トリプル: 19 億
  • 更新: 毎週
  • データ形式: N-Triples RDF
  • ライセンス: CC-BY
22 GB gzip
250 GB 非圧縮

RDF データは、N-Triples 形式を使用してシリアル化され、UTF-8 テキストとしてエンコードされ、Gzip で圧縮されます。

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

RDF ダンプを解析する独自のコードを作成する場合は、データを抽出してから非圧縮データを処理するよりも、GZip ファイルから直接読み取る方が効率的です。

<subject>  <predicate>  <object> .

注: Freebase では、オブジェクトには /m/012rkqx のような MID があります。RDF では、これらの MID は m.012rkqx になります。同様に、/common/topic などの Freebase スキーマは common.topic として書き込まれます。

主語は、Freebase オブジェクトの ID です。トピックと CVT の場合は Freebase MID(例: m.012rkqx)、人間に読み取り可能な ID(例: common.topic)をスキーマに指定します。

述語は、常に Freebase プロパティまたは RDFS などの標準 RDF ボキャブラリのプロパティの人間が読める ID です。Freebase の外部キーの名前空間は、名前空間でキーを簡単に検索できるように述語としても使用されます。

オブジェクト フィールドには、オブジェクトの Freebase MID、または Freebase や他の RDF ボキャブラリのスキーマの人間が読める ID が含まれることがあります。文字列、ブール値、数値などのリテラル値も含まれる場合があります。

トピックの説明には改行が含まれていることがよくあります。各トリプルを 1 行に収めるため、改行を「\n」でエスケープしました。

Freebase Deleted Triples

また、Freebase から削除されたトリプルのダンプも提供しています。これは 2013 年 3 月までの 1 回限りのダンプです。今後、最近削除されたトリプルの定期的な更新の提供を検討する可能性はありますが、現時点では具体的なスケジュールは決まっておらず、この 1 回限りのダンプのみを提供しています。

ダンプは .tar.gz ファイルとして配布されます(圧縮時 2.1 GB、非圧縮時 7.7 GB)。これには、20 個のファイルに 63,036,271 個の削除されたトリプルが含まれています(個々のファイルに特別な意味はありません。1 つの巨大なファイルよりも、複数の小さなファイルを操作する方が簡単です)。

このデータのリリースを可能にしてくれた Chun How Tan と John Giannandrea に感謝します。

  • 合計トリプル: 6,300 万
  • 更新日: 2013 年 6 月 9 日
  • データ形式: CSV
  • ライセンス: CC-BY
2 GB gzip
8 GB 圧縮なし

データ形式は基本的に CSV ですが、1 つ重要な注意点があります。オブジェクト フィールドには、カンマ(およびその他の妥当な区切り文字)を含む任意の文字を含めることができます。ただし、他のすべてのフィールドにはカンマが含まれないことが保証されているため、データは明確に解析できます。

データセットの列は次のように定義されます。

  • creation_timestamp(Unix エポック時間(ミリ秒))
  • 作成者
  • deletion_timestamp(Unix エポック時間(ミリ秒))
  • 削除ツール
  • 件名(MID)
  • 述語(MID)
  • object(MID/リテラル)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata マッピング

このデータは 2013 年 10 月 28 日の Wikidata-Dump に基づいて作成されており、少なくとも 2 つの共通の Wikipedia リンクがあり、1 つの不一致の Wikipedia リンクもないリンクのみが含まれています。さらに、行は共通の Wikipedia リンクの数で並べ替えられます(ただし、Turtle ではこれはあまり重要ではありません)。
  • 合計トリプル: 210 万
  • 更新日: 2013 年 10 月 28 日
  • データ形式: N-Triples RDF
  • ライセンス: CC0
21.2 MB gzip
242.9 MB 非圧縮

RDF データは、N-Triples 形式を使用してシリアル化され、UTF-8 テキストとしてエンコードされ、Gzip で圧縮されます。

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

ライセンス

Freebase データダンプは、Google によって定期的に更新され、あらゆる目的で無料で提供されます。Freebase 自体と同様に、クリエイティブ・コモンズ表示(CC-BY)の下で配布され、使用には利用規約が適用されます。Freebase/Wikidata ID マッピングは CC0 の下で提供され、制限なく使用できます。

引用

これらのデータダンプを出版物で引用する場合は、次の文言を使用できます。

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

BibTeX 形式の場合:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}