Dump Data adalah versi data di Freebase yang dapat didownload. File ini merupakan snapshot data yang disimpan di Freebase dan Skema yang menyusunnya, serta disediakan dengan lisensi CC-BY yang sama. Pemetaan Freebase/Wikidata disediakan berdasarkan lisensi CC0.
Tripel Freebase
Set data ini berisi setiap fakta yang saat ini ada di Freebase. |
|
22 GB gzip 250 GB yang tidak dikompresi |
Data RDF diserialisasi menggunakan format N-Triples, dienkode sebagai teks UTF-8 dan dikompresi dengan Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Jika Anda menulis kode sendiri untuk mengurai dump RDF, sering kali lebih efisien untuk membaca langsung dari file GZip daripada mengekstrak data terlebih dahulu, lalu memproses data yang tidak dikompresi.
<subject> <predicate> <object> .
Catatan: Di Freebase, objek memiliki MID yang terlihat seperti /m/012rkqx
. Dalam RDF, MID tersebut menjadi m.012rkqx. Demikian pula, skema Freebase seperti /common/topic
ditulis sebagai common.topic
.
subject adalah ID objek Freebase. ID tersebut dapat berupa MID Freebase (mis. m.012rkqx) untuk topik dan CVT atau ID yang dapat dibaca manusia (mis. common.topic
) untuk skema.
Predikat selalu berupa ID yang dapat dibaca manusia untuk properti Freebase atau properti dari kosakata RDF standar seperti RDFS. Namespace kunci asing Freebase juga digunakan sebagai predikat untuk mempermudah pencarian kunci menurut namespace.
Kolom objek dapat berisi MID Freebase untuk objek atau ID yang dapat dibaca manusia untuk skema dari Freebase atau kosakata RDF lainnya. Objek ini juga dapat menyertakan nilai literal seperti string, boolean, dan nilai numerik.
Deskripsi topik sering kali berisi baris baru. Agar setiap tiga tuple muat dalam satu baris, kita telah mengganti baris baru dengan "\n".
Triple yang Dihapus Freebase
Kami juga menyediakan dump tigaan yang telah dihapus dari Freebase dari waktu ke waktu. Ini adalah dump satu kali hingga Maret 2013. Pada masa mendatang, kami mungkin mempertimbangkan untuk memberikan update berkala tentang triple yang baru saja dihapus, tetapi saat ini kami tidak memiliki jangka waktu tertentu untuk melakukannya, dan hanya memberikan dump satu kali ini.
Dump didistribusikan sebagai file .tar.gz (2,1 GB terkompresi, 7,7 GB tidak terkompresi). File ini berisi 63.036.271 triple yang dihapus dalam 20 file (tidak ada arti khusus untuk setiap file, hanya saja lebih mudah memanipulasi beberapa file yang lebih kecil daripada satu file besar).
Terima kasih kepada Chun How Tan dan John Giannandrea yang telah memungkinkan rilis data ini.
2 GB gzip 8 GB yang tidak dikompresi |
Format data pada dasarnya adalah CSV dengan satu peringatan penting. Kolom objek dapat berisi karakter apa pun, termasuk koma (serta pembatas lain yang wajar yang dapat Anda pikirkan). Namun, semua kolom lainnya dijamin tidak berisi koma, sehingga data masih dapat diuraikan dengan jelas.
Kolom dalam set data ditentukan sebagai:
- creation_timestamp (waktu epoch Unix dalam milidetik)
- kreator
- deletion_timestamp (waktu epoch Unix dalam milidetik)
- penghapus
- subjek (MID)
- predikat (MID)
- objek (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Pemetaan Freebase/Wikidata
Data telah dibuat berdasarkan Dump Wikidata pada 28 Oktober 2013, dan hanya berisi link yang memiliki setidaknya dua link Wikipedia yang sama dan bukan satu link Wikipedia yang berbeda. Selain itu, garis diurutkan berdasarkan jumlah Link Wikipedia yang sama (meskipun di Turtle hal ini tidak terlalu penting). |
|
21,2 MB gzip 242,9 MB tidak dikompresi |
Data RDF diserialisasi menggunakan format N-Triples, dienkode sebagai teks UTF-8 dan dikompresi dengan Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Lisensi
Dump Data Freebase disediakan tanpa biaya untuk tujuan apa pun dengan update rutin oleh Google. Data ini didistribusikan, seperti Freebase itu sendiri, berdasarkan Creative Commons Attribution (alias CC-BY) dan penggunaannya tunduk pada Persyaratan Layanan. Pemetaan ID Freebase/Wikidata disediakan berdasarkan lisensi CC0 dan dapat digunakan tanpa batasan.
Mengutip
Jika Anda ingin mengutip dump data ini dalam publikasi, Anda dapat menggunakan:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Atau sebagai BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }