資料傾印

資料傾印是 Freebase 資料的可下載版本。這些檔案是 Freebase 中儲存的資料和結構定義的快照,並以相同的 CC-BY 授權提供。Freebase/維基資料對應是依據 CC0 授權提供。

  1. Freebase 三元組
  2. Freebase 已刪除的三元組
  3. Freebase/Wikidata 對應
  4. 授權
  5. 引用

Freebase 三元組

這個資料集包含 Freebase 目前的所有事實。
  • 三元組總數:19 億
  • 更新頻率:每週
  • 資料格式: N-Triples RDF
  • 授權: CC-BY
22 GB gzip
250 GB 未壓縮

RDF 資料會使用 N-Triples 格式序列化,並以 UTF-8 文字編碼,然後以 Gzip 壓縮。

RDF
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 .
<http://rdf.freebase.com/ns/g.11vjz1ynm>  <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage>  .

如果您要自行編寫程式碼來剖析 RDF 傾印,直接從 GZip 檔案讀取資料通常會更有效率,不必先解壓縮資料再進行處理。

<subject>  <predicate>  <object> .

注意:在 Freebase 中,物件的 MID 類似 /m/012rkqx。在 RDF 中,這些 MID 會變成 m.012rkqx。同樣地,Freebase 結構定義 (例如 /common/topic) 會寫成 common.topic

subject 是 Freebase 物件的 ID。可以是主題和 CVT 的 Freebase MID (例如 m.012rkqx),也可以是使用者可解讀的 ID (例如 common.topic) 的結構定義。

述詞一律是 Freebase 屬性或標準 RDF 詞彙 (例如 RDFS) 屬性的可讀 ID。Freebase 外鍵命名空間也會做為述詞,方便您依命名空間查詢鍵。

物件欄位可能包含物件的 Freebase MID,或來自 Freebase 或其他 RDF 詞彙的結構定義可讀取 ID。也可能包含字串、布林值和數值等常值。

主題說明通常包含換行符號。為了讓每個三元組都顯示在一行中,我們使用「\n」逸出換行符。

已刪除的 Freebase 三元組

我們也提供從 Freebase 刪除的三元組傾印檔。這是一次性匯出,資料只會匯出到 2013 年 3 月為止。日後我們可能會考慮定期更新最近刪除的三元組,但目前尚無具體時間表,因此只提供這次的傾印檔。

傾印檔以 .tar.gz 檔案形式發布 (壓縮後為 2.1 GB,解壓縮後為 7.7 GB)。其中包含 20 個檔案中刪除的 63,036,271 個三元組 (個別檔案沒有特定意義,只是處理多個較小的檔案比處理一個巨大的檔案容易)。

感謝 Chun How Tan 和 John Giannandrea 促成這次資料發布。

  • 三元組總數:6,300 萬
  • 更新日期:2013 年 6 月 9 日
  • 資料格式: CSV
  • 授權: CC-BY
2 GB gzip
8 GB 未壓縮

資料格式基本上是 CSV,但有一項重要注意事項。物件欄位可包含任何字元,包括半形逗號 (以及您想到的任何其他合理分隔符)。不過,其他所有欄位保證不會包含半形逗號,因此資料仍可明確剖析。

資料集中的資料欄定義如下:

  • creation_timestamp (以毫秒為單位的 Unix Epoch 紀元時間)
  • 創作者
  • deletion_timestamp (以毫秒為單位的 Unix Epoch 紀元時間)
  • 刪除者
  • 主題 (MID)
  • 述詞 (MID)
  • 物件 (MID/常值)
  • language_code
CSV
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en
1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en
1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en
1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en
1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en
1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en
1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en
1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en

Freebase/Wikidata 對應

這項資料是根據 2013 年 10 月 28 日的維基資料傾印檔建立,且只包含至少有兩個共同維基百科連結,且沒有任何不一致維基百科連結的連結。此外,這些行會依據共同維基百科連結的數量排序 (雖然在 Turtle 中這並不重要)。
  • 三連打總數:210 萬
  • 更新日期:2013 年 10 月 28 日
  • 資料格式: N-Triples RDF
  • 授權: CC0
21.2 MB gzip
242.9 MB 未壓縮

RDF 資料會使用 N-Triples 格式序列化,並以 UTF-8 文字編碼,然後以 Gzip 壓縮。

RDF
<http://rdf.freebase.com/ns/m.0695j>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q6718> .
<http://rdf.freebase.com/ns/m.05nrg>  <http://www.w3.org/2002/07/owl#sameAs7>  <http://www.wikidata.org/entity/Q538> .
<http://rdf.freebase.com/ns/m.0jgd>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q414> .
<http://rdf.freebase.com/ns/m.0d_23>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q2537> .
<http://rdf.freebase.com/ns/m.04g7d>  <http://www.w3.org/2002/07/owl#sameAs>  <http://www.wikidata.org/entity/Q315> .

授權

Google 會定期更新 Freebase 資料傾印,並免費提供給使用者,供任何用途使用。與 Freebase 本身一樣,這些資料集是依據創用 CC 姓名標示 (又稱 CC-BY) 授權條款發布,使用時須遵守服務條款。 Freebase/Wikidata ID 對應表是依 CC0 授權提供,可自由使用。

引用

如要在出版物中引用這些資料傾印內容,請使用:

Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>

或以 BibTeX 格式匯出:

BibTex
@misc{freebase:datadumps,
  title = "Freebase Data Dumps"
  author = "Google",
  howpublished = "\url{https://developers.google.com/freebase/data}",
  edition = "<month> <day>, <year>",
  year = "<year>"
}