数据转储

Data Dump 是 Freebase 中的数据的可下载版本。它们是存储在 Freebase 和结构中的数据架构中的快照,由相同的 CC-BY 许可提供。Freebase/Wikidata 映射按照 CC0 许可提供。

  1. Freebase 三元组
  2. Freebase 已删除的三元组
  3. Freebase/Wikidata 映射
  4. 许可
  5. 公民

Freebase 三元组

此数据集包含 Freebase 当前包含的所有信息。
  • 三元组总数:19 亿
  • 更新时间:每周
  • 数据格式N-Triples RDF
  • 许可CC-BY
22 GB gzip
250 GB 未压缩

RDF 数据使用 N-Triples 格式进行序列化,编码为 UTF-8 文本,并使用 Gzip 压缩。

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

如果您要编写自己的代码来解析 RDF 转储,通常比直接从 GZip 文件提取数据再处理未压缩的数据更有效。

<subject>  <predicate>  <object> .

注意:在 Freebase 中,对象的 MID 类似于 /m/012rkqx。在 RDF 中,这些 MID 会变为 m.012rkqx。同样,Freebase 架构(如 /common/topic)编写为 common.topic

subject 是 Freebase 对象的 ID。它可以是主题和 CVT 的 Freebase MID(例如 m.012rkqx),也可以是直观易懂的 ID(例如common.topic)来表示架构。

谓词始终是 Freebase 媒体资源的人类可读 ID,或者是 RDFS 等标准 RDF 词汇中的属性。Freebase 外键命名空间也可用作谓词,以便更轻松地按命名空间查找键。

对象字段可以包含一个对象的 Freebase MID,或者对于 Freebase 或其他 RDF 词汇的架构的架构,直观易懂的 ID。它也可能包含字符串、布尔值和数值等字面量值。

主题说明通常包含换行符。为了使每个三元组都在一行上,我们使用“\n”转义了换行。

Freebase 已删除的三元组

我们还提供了随着时间推移从 Freebase 中删除的三元组的转储。这是 2013 年 3 月的一次性转储文件。将来,我们可能会考虑定期更新最近删除的三元组,但目前我们没有具体的时间表,只会提供一次性转储。

转储以 .tar.gz 文件(2.1Gb 压缩、7.7Gb 未压缩)的形式进行分发。它在 20 个文件中包含 63,036,271 个已删除的三元组(单个文件没有特殊含义,比几个大型文件更容易操纵多个较小的文件)。

感谢 Chun How Tan 和 John Giannandrea 实现此类数据发布。

  • 三元组总数:6300 万
  • 更新日期:2013 年 6 月 9 日
  • 数据格式CSV
  • 许可CC-BY
2 GB gzip
8 GB 未压缩

数据格式基本上是 CSV,但有一项重要注意事项。对象字段可以包含任何字符,包括英文逗号(以及您能想到的任何其他合理分隔符)。但是,其他所有字段均不得包含英文逗号,因此数据仍然可以明确解析。

数据集中的列定义为:

  • created_timestamp(Unix 纪元时间,以毫秒为单位)
  • 创建者
  • delete_timestamp(Unix 纪元时间,以毫秒为单位)
  • 取消者
  • subject (MID)
  • 谓词 (MID)
  • 对象(MID/文字)
  • 语言代码
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata 映射

数据基于 2013 年 10 月 28 日的 Wikidata-Dump 创建,且仅包含那些至少包含两个通用 Wikipedia-Link 而不是一个不一致的 Wikipedia-Link 的链接。此外,这些线也按常见的维基百科链接数量排序(尽管在 Turtle 中并不重要)。
  • 三元组总数:210 万
  • 更新日期:2013 年 10 月 28 日
  • 数据格式N-Triples RDF
  • 许可CC0
21.2 MB gzip
242.9 MB 未压缩

RDF 数据使用 N-Triples 格式进行序列化,编码为 UTF-8 文本,并使用 Gzip 压缩。

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

许可

Google 会定期出于各种目的免费提供 Freebase 数据转储。它们与 Freebase 本身一样根据知识共享署名(即 CC-BY)分发,并且在使用时须遵守服务条款。 Freebase/Wikidata ID 映射在 CC0 下提供,可以不受限制地使用。

引用

如果您想在出版物中引用这些数据转储,可以使用:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

或以 BibTeX 身份使用:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}