Data Dump 是 Freebase 中的資料下載版本。它們代表儲存在 Freebase 中的資料快照,以及建構該架構的 Schema 快照,且是由相同的 CC-BY 授權提供。Freebase/Wikidata 對應是根據 CC0 授權提供。
免費方案三元組
這個資料集含有 Freebase 目前提供的所有事實。 |
|
22 GB gzip 250 GB (未壓縮) |
RDF 資料使用 N-Triples 格式序列化,並編碼為 UTF-8 文字,並以 Gzip 壓縮。
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
如要自行編寫程式碼來剖析 RDF 傾印,通常比直接從 GZip 檔案讀取會更有效率,而不必先擷取資料,然後處理未壓縮的資料。
<subject> <predicate> <object> .
注意:在 Freebase 中,物件擁有類似 /m/012rkqx
的 MID。在 RDF 中,這些 MID 會變成 m.012rkqx。同樣地,/common/topic
等 Freebase 結構定義為 common.topic
。
主旨是 Freebase 物件的 ID。主題是 Freebase MID (例如 m.012rkqx) 或主題 CVT,或是使用者可理解的 ID (例如common.topic
) 來編寫結構定義。
述詞一律為使用者可理解的 ID,適用於 Freebase 屬性,或來自 RRF 標準詞彙 (例如 RDFS) 的屬性。我們也使用 Freebase 通用命名空間命名空間做為述詞,方便您透過命名空間查詢金鑰。
物件欄位可能包含物件的 Freebase MID,或是可供 Freebase 或其他 RDF 宣告結構定義的結構定義 ID。也可能包含字串值,例如字串、布林值和數值。
主題說明通常包含換行符號,為了讓每一趟三輪皆符合一行,我們使用「\n」逸出新換行符號。
Freebase 已刪除 Triples
我們也會提供一連串從 Freebase 中刪除的三趟行程資料。此為 2013 年 3 月的一次性傾印。我們可能會考慮定期提供最近刪除的三趟行程,但我們目前還沒有特定的時間表,只提供一次性的傾印。
傾印會以 .tar.gz 檔案 (壓縮為 2.1 Gb,未壓縮的 7.7 Gb) 發布。這個檔案中有 63,036,271 個已刪除項目,位於 20 個檔案 (這與個別檔案無意義不同) 比較容易,而且比較多個大型檔案也比一個大型檔案來得容易。
感謝 Chun How Tan 和 John Giannandrea 提供的資訊,讓我們推廣這些資料。
2 GB gzip 8 GB 未壓縮 |
資料格式基本上是 CSV 檔案,當中包含一個重要須知。物件欄位可包含任何半形字元,包括半形逗號 (以及其他您認為合理的分隔符號)。不過,所有其他欄位都保證不會包含逗號,因此您仍可明確剖析資料。
資料集內的資料欄定義如下:
- create_timestamp (Unix Epoch 紀元時間,以毫秒為單位)
- 創作者
- delete_timestamp (Unix Epoch 紀元時間,以毫秒為單位)
- 刪除者
- 主旨 (MID)
- 述詞 (MID)
- 物件 (MID/文學)
- 語言代碼
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Freebase/Wikidata 對應
這些資料的建立日期為 2013 年 10 月 28 日的 Wikidata-Dump,而且只包含至少兩個常用 Wikipedia 連結的連結,而且不是一次不同意 Wikipedia-Link 的連結。此外,這些路徑會按照常見 Wikipedia-Link 的數量排序 (雖然在烏龜比較無關)。 |
|
21.2 MB gzip 242.9 MB (未壓縮) |
RDF 資料使用 N-Triples 格式序列化,並編碼為 UTF-8 文字,並以 Gzip 壓縮。
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
授權
Google 會定時針對任何目的免費提供 Freebase Data Dump,且無須額外付費。如同 Freebase 自行發布,依據創用 CC 姓名標示 (CC-BY) 規定,使用時必須遵守《服務條款》。 Freebase/Wikidata ID 對應關係是由 CC0 提供,使用時不受限制。
引用
如果想在出版品中引用這些資料傾印,您可以使用:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
或是 BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }