資料傾印

Data Dump 是 Freebase 中的資料下載版本。它們代表儲存在 Freebase 中的資料快照,以及建構該架構的 Schema 快照,且是由相同的 CC-BY 授權提供。Freebase/Wikidata 對應是根據 CC0 授權提供。

  1. 免費方案三元組
  2. Freebase 已刪除三趟行程
  3. Freebase/Wikidata 對應
  4. 授權
  5. 引用

免費方案三元組

這個資料集含有 Freebase 目前提供的所有事實。 22 GB gzip
250 GB (未壓縮)

RDF 資料使用 N-Triples 格式序列化,並編碼為 UTF-8 文字,並以 Gzip 壓縮。

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

如要自行編寫程式碼來剖析 RDF 傾印,通常比直接從 GZip 檔案讀取會更有效率,而不必先擷取資料,然後處理未壓縮的資料。

<subject>  <predicate>  <object> .

注意:在 Freebase 中,物件擁有類似 /m/012rkqx 的 MID。在 RDF 中,這些 MID 會變成 m.012rkqx。同樣地,/common/topic 等 Freebase 結構定義為 common.topic

主旨是 Freebase 物件的 ID。主題是 Freebase MID (例如 m.012rkqx) 或主題 CVT,或是使用者可理解的 ID (例如common.topic) 來編寫結構定義。

述詞一律為使用者可理解的 ID,適用於 Freebase 屬性,或來自 RRF 標準詞彙 (例如 RDFS) 的屬性。我們也使用 Freebase 通用命名空間命名空間做為述詞,方便您透過命名空間查詢金鑰。

物件欄位可能包含物件的 Freebase MID,或是可供 Freebase 或其他 RDF 宣告結構定義的結構定義 ID。也可能包含字串值,例如字串、布林值和數值。

主題說明通常包含換行符號,為了讓每一趟三輪皆符合一行,我們使用「\n」逸出新換行符號。

Freebase 已刪除 Triples

我們也會提供一連串從 Freebase 中刪除的三趟行程資料。此為 2013 年 3 月的一次性傾印。我們可能會考慮定期提供最近刪除的三趟行程,但我們目前還沒有特定的時間表,只提供一次性的傾印。

傾印會以 .tar.gz 檔案 (壓縮為 2.1 Gb,未壓縮的 7.7 Gb) 發布。這個檔案中有 63,036,271 個已刪除項目,位於 20 個檔案 (這與個別檔案無意義不同) 比較容易,而且比較多個大型檔案也比一個大型檔案來得容易。

感謝 Chun How Tan 和 John Giannandrea 提供的資訊,讓我們推廣這些資料。

  • 總計數:6,300 萬
  • 更新日期:2013 年 6 月 9 日
  • 資料格式: CSV
  • 授權: CC-BY
2 GB gzip
8 GB 未壓縮

資料格式基本上是 CSV 檔案,當中包含一個重要須知。物件欄位可包含任何半形字元,包括半形逗號 (以及其他您認為合理的分隔符號)。不過,所有其他欄位都保證不會包含逗號,因此您仍可明確剖析資料。

資料集內的資料欄定義如下:

  • create_timestamp (Unix Epoch 紀元時間,以毫秒為單位)
  • 創作者
  • delete_timestamp (Unix Epoch 紀元時間,以毫秒為單位)
  • 刪除者
  • 主旨 (MID)
  • 述詞 (MID)
  • 物件 (MID/文學)
  • 語言代碼
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata 對應

這些資料的建立日期為 2013 年 10 月 28 日的 Wikidata-Dump,而且只包含至少兩個常用 Wikipedia 連結的連結,而且不是一次不同意 Wikipedia-Link 的連結。此外,這些路徑會按照常見 Wikipedia-Link 的數量排序 (雖然在烏龜比較無關)。
  • 總計數:210 萬
  • 更新日期:2013 年 10 月 28 日
  • 資料格式: N-Triples RDF
  • 授權: CC0
21.2 MB gzip
242.9 MB (未壓縮)

RDF 資料使用 N-Triples 格式序列化,並編碼為 UTF-8 文字,並以 Gzip 壓縮。

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

授權

Google 會定時針對任何目的免費提供 Freebase Data Dump,且無須額外付費。如同 Freebase 自行發布,依據創用 CC 姓名標示 (CC-BY) 規定,使用時必須遵守《服務條款》。 Freebase/Wikidata ID 對應關係是由 CC0 提供,使用時不受限制。

引用

如果想在出版品中引用這些資料傾印,您可以使用:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

或是 BibTeX:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}