資料傾印是 Freebase 資料的可下載版本。這些檔案是 Freebase 中儲存的資料和結構定義的快照,並以相同的 CC-BY 授權提供。Freebase/維基資料對應是依據 CC0 授權提供。
Freebase 三元組
這個資料集包含 Freebase 目前的所有事實。 |
|
22 GB gzip 250 GB 未壓縮 |
RDF 資料會使用 N-Triples 格式序列化,並以 UTF-8 文字編碼,然後以 Gzip 壓縮。
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
如果您要自行編寫程式碼來剖析 RDF 傾印,直接從 GZip 檔案讀取資料通常會更有效率,不必先解壓縮資料再進行處理。
<subject> <predicate> <object> .
注意:在 Freebase 中,物件的 MID 類似 /m/012rkqx
。在 RDF 中,這些 MID 會變成 m.012rkqx。同樣地,Freebase 結構定義 (例如 /common/topic
) 會寫成 common.topic
。
subject 是 Freebase 物件的 ID。可以是主題和 CVT 的 Freebase MID (例如 m.012rkqx),也可以是使用者可解讀的 ID (例如 common.topic
) 的結構定義。
述詞一律是 Freebase 屬性或標準 RDF 詞彙 (例如 RDFS) 屬性的可讀 ID。Freebase 外鍵命名空間也會做為述詞,方便您依命名空間查詢鍵。
物件欄位可能包含物件的 Freebase MID,或來自 Freebase 或其他 RDF 詞彙的結構定義可讀取 ID。也可能包含字串、布林值和數值等常值。
主題說明通常包含換行符號。為了讓每個三元組都顯示在一行中,我們使用「\n」逸出換行符。
已刪除的 Freebase 三元組
我們也提供從 Freebase 刪除的三元組傾印檔。這是一次性匯出,資料只會匯出到 2013 年 3 月為止。日後我們可能會考慮定期更新最近刪除的三元組,但目前尚無具體時間表,因此只提供這次的傾印檔。
傾印檔以 .tar.gz 檔案形式發布 (壓縮後為 2.1 GB,解壓縮後為 7.7 GB)。其中包含 20 個檔案中刪除的 63,036,271 個三元組 (個別檔案沒有特定意義,只是處理多個較小的檔案比處理一個巨大的檔案容易)。
感謝 Chun How Tan 和 John Giannandrea 促成這次資料發布。
2 GB gzip 8 GB 未壓縮 |
資料格式基本上是 CSV,但有一項重要注意事項。物件欄位可包含任何字元,包括半形逗號 (以及您想到的任何其他合理分隔符)。不過,其他所有欄位保證不會包含半形逗號,因此資料仍可明確剖析。
資料集中的資料欄定義如下:
- creation_timestamp (以毫秒為單位的 Unix Epoch 紀元時間)
- 創作者
- deletion_timestamp (以毫秒為單位的 Unix Epoch 紀元時間)
- 刪除者
- 主題 (MID)
- 述詞 (MID)
- 物件 (MID/常值)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Freebase/Wikidata 對應
這項資料是根據 2013 年 10 月 28 日的維基資料傾印檔建立,且只包含至少有兩個共同維基百科連結,且沒有任何不一致維基百科連結的連結。此外,這些行會依據共同維基百科連結的數量排序 (雖然在 Turtle 中這並不重要)。 |
|
21.2 MB gzip 242.9 MB 未壓縮 |
RDF 資料會使用 N-Triples 格式序列化,並以 UTF-8 文字編碼,然後以 Gzip 壓縮。
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
授權
Google 會定期更新 Freebase 資料傾印,並免費提供給使用者,供任何用途使用。與 Freebase 本身一樣,這些資料集是依據創用 CC 姓名標示 (又稱 CC-BY) 授權條款發布,使用時須遵守服務條款。 Freebase/Wikidata ID 對應表是依 CC0 授權提供,可自由使用。
引用
如要在出版物中引用這些資料傾印內容,請使用:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
或以 BibTeX 格式匯出:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }