数据转储

数据转储是 Freebase 中数据的可下载版本。它们构成了 Freebase 中存储的数据及其结构化架构的快照,并根据相同的 CC-BY 许可提供。Freebase/Wikidata 映射在 CC0 许可下提供。

  1. Freebase Triples
  2. Freebase 已删除的三元组
  3. Freebase/Wikidata 映射
  4. 许可
  5. 引用

Freebase 三元组

此数据集包含 Freebase 中目前的所有事实。
  • 三元组总数:19 亿
  • 更新频率:每周
  • 数据格式N-Triples RDF
  • 许可CC-BY
22 GB gzip 压缩
250 GB 未压缩

RDF 数据使用 N-Triples 格式进行序列化,编码为 UTF-8 文本,并使用 Gzip 进行压缩。

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

如果您要自行编写代码来解析 RDF 转储,那么直接从 GZip 文件读取数据通常比先提取数据再处理未压缩的数据更高效。

<subject>  <predicate>  <object> .

注意:在 Freebase 中,对象的 MID 类似于 /m/012rkqx。在 RDF 中,这些 MID 会变为 m.012rkqx。同样,Freebase 架构(例如 /common/topic)会写为 common.topic

主题是 Freebase 对象的 ID。它可以是主题和 CVT 的 Freebase MID(例如 m.012rkqx),也可以是人类可读的 ID(例如common.topic)用于架构。

谓词始终是 Freebase 属性或来自标准 RDF 词汇(例如 RDFS)的属性的人类可读 ID。Freebase 外键命名空间也用作谓词,以便更轻松地按命名空间查找键。

对象字段可能包含对象的 Freebase MID,也可能包含来自 Freebase 或其他 RDF 词汇表的架构的人类可读 ID。它还可以包含字符串、布尔值和数值等字面量值。

主题说明通常包含换行符。为了使每个三元组都显示在一行上,我们使用“\n”转义了换行符。

Freebase 已删除的三元组

我们还提供随时间推移从 Freebase 中删除的三元组的转储。这是一次性转储,截止日期为 2013 年 3 月。未来,我们可能会考虑定期更新最近删除的三元组,但目前我们没有具体的时间表,并且只提供此一次性转储。

该转储以 .tar.gz 文件(压缩后为 2.1 GB,未压缩为 7.7 GB)的形式分发。它包含 20 个文件中的 63,036,271 个已删除的三元组(各个文件没有特殊含义,只是处理多个较小的文件比处理一个巨大的文件更容易)。

感谢 Chun How Tan 和 John Giannandrea 促成了此次数据发布。

  • 三元组总数:6,300 万
  • 更新日期:2013 年 6 月 9 日
  • 数据格式CSV
  • 许可CC-BY
2 GB(gzip 压缩)
8 GB(未压缩)

数据格式基本上是 CSV,但有一个重要的注意事项。对象字段可以包含任何字符,包括逗号(以及您能想到的任何其他合理的分隔符)。不过,所有其他字段保证不包含英文逗号,因此数据仍可明确无误地进行解析。

数据集中的列定义如下:

  • creation_timestamp(以毫秒为单位的 Unix 纪元时间)
  • 创作者
  • deletion_timestamp(以毫秒为单位的 Unix 纪元时间)
  • 删除者
  • 主题 (MID)
  • 谓词 (MID)
  • 对象(MID/字面值)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata 映射

该数据是根据 2013 年 10 月 28 日的 Wikidata 转储创建的,仅包含至少有两个共同的维基百科链接且没有一个不一致的维基百科链接的链接。此外,这些行按共同 Wikipedia 链接的数量排序(不过在 Turtle 中这并不重要)。
  • 三连总数:210 万
  • 更新时间:2013 年 10 月 28 日
  • 数据格式N-Triples RDF
  • 许可CC0
21.2 MB gzip
242.9 MB 未压缩

RDF 数据使用 N-Triples 格式进行序列化,编码为 UTF-8 文本,并使用 Gzip 进行压缩。

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

许可

Freebase 数据转储由 Google 定期更新,可免费用于任何用途。与 Freebase 本身一样,它们根据 Creative Commons Attribution(简称 CC-BY)进行分发,并且使用受服务条款的约束。Freebase/Wikidata ID 映射以 CC0 许可提供,可不受限制地使用。

引用

如果您想在出版物中引用这些数据转储,可以使用:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

或者以 BibTeX 格式:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}