データダンプ

データダンプは、Freebase 内のデータをダウンロードできるバージョンです。Freebase に保存されているデータと、それを構造化するスキーマのスナップショットであり、同じ CC-BY ライセンスで提供されます。Freebase と Wikidata のマッピングは、CC0 ライセンスで提供されています。

  1. Freebase の 3 倍
  2. Freebase の削除されたトリプル
  3. フリーベース/Wikidata のマッピング
  4. ライセンス
  5. 引用

フリーベース トリプル

このデータセットには、現在 Freebase に登録されているすべての情報が含まれています。
  • 合計 3 倍: 19 億
  • 更新: 毎週
  • データ形式: N-Triples RDF
  • ライセンス: CC-BY
22 GB gzip
非圧縮 250 GB

RDF データは N-Triples 形式でシリアル化され、UTF-8 テキストとしてエンコードされ、Gzip で圧縮されます。

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

RDF ダンプを解析する独自のコードを記述する場合は、先にデータを抽出して非圧縮データを処理するのではなく、GZip ファイルから直接読み取る方が効率的です。

<subject>  <predicate>  <object> .

注: Freebase では、オブジェクトの MID は /m/012rkqx のようになります。RDF では MID は m.012rkqx になります。同様に、/common/topic などの Freebase スキーマは common.topic と記述されます。

subject は、Freebase オブジェクトの ID です。トピックと CVT 用の Freebase MID(例: m.012rkqx)か、人が読める形式の ID(例:例: common.topic)。

述語は、Freebase プロパティまたは RDFS などの標準 RDF ボキャブラリのプロパティに対する、人が読める形式の ID です。Freebase の外部キー Namespace は、名前空間によるキーの検索を容易にする述語としても使用されます。

オブジェクト フィールドには、オブジェクトの Freebase MID、または Freebase または他の RDF ボキャブラリのスキーマ用の人が読める形式の ID を指定できます。文字列、ブール値、数値などのリテラル値も含まれる場合があります。

トピックの説明には改行が含まれていることがよくあります。各トリプルを 1 行に収めるために、改行を「\n」でエスケープしています。

Freebase の削除されたトリプル

また、時間の経過とともに Freebase から削除されたトリプルのダンプも提供します。これは 2013 年 3 月までの 1 回限りのダンプです。将来的には、最近削除されたトリプルの定期的な更新が提供される可能性はあります。ただし現時点では、終了の時期は決まっておらず、この 1 回限りのダンプしか提供されません。

ダンプは .tar.gz ファイルとして配布されます(圧縮 2.1 GB、非圧縮 7.7 GB)。20 個のファイルに 3 つの削除されたトリプルが 63,036,271 個含まれています(個々のファイルには特に意味はなく、1 つの大きなファイルよりも数個の小さなファイルを操作した方が簡単です)。

このデータのリリースに協力した Chun How と John Giannandrea に感謝します。

  • 合計 3 倍: 6,300 万
  • 更新日: 2013 年 6 月 9 日
  • データ形式: CSV
  • ライセンス: CC-BY
非圧縮 2 GB gzip
8 GB

データ形式は基本的に CSV ですが、重要な注意点が 1 つあります。オブジェクト フィールドには、カンマなどの文字を含めることができます。ただし、他のすべてのフィールドにはカンマが含まれないことが保証されているため、データは明確に解析できます。

データセット内の列は次のように定義されています。

  • creation_timestamp(ミリ秒単位のエポック時間(ミリ秒))
  • 作成者
  • delete_timestamp(ミリ秒単位のエポックタイム)
  • Deletor
  • subject(MID)
  • 述語(MID)
  • object(MID/リテラル)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

フリーベース/ウィキデータ マッピング

このデータは 2013 年 10 月 28 日の Wikidata-Dump に基づいて作成されています。このデータには、よく利用される Wikipedia のリンクが 2 つ以上含まれており、かつ一致しない Wikipedia リンクは 1 つ含まれていないリンクのみが含まれています。また、各行は、一般的な Wikipedia リンクの数順に並べ替えられています(ただし、Turtle の場合は特に問題になりません)。
  • 合計 3 倍: 210 万
  • 更新日: 2013 年 10 月 28 日
  • データ形式: N-Triples RDF
  • ライセンス: CC0
21.2 MB gzip
非圧縮 242.9 MB

RDF データは N-Triples 形式でシリアル化され、UTF-8 テキストとしてエンコードされ、Gzip で圧縮されます。

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

ライセンス

Freebase のデータダンプは、Google による定期的な更新を通じて、いかなる目的にも無料で提供されています。Freebase 自体と同様に、クリエイティブ・コモンズ表示(CC-BY)により配布されています。使用には利用規約が適用されます。 Freebase と Wikidata ID のマッピングは CC0 で提供されており、制限なく使用できます。

引用

パブリケーションでこれらのデータダンプを引用したい場合は、

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

BibTeX を使用する場合:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}