Dump Data adalah versi data yang dapat didownload di Freebase. Data tersebut merupakan ringkasan data yang disimpan di Freebase dan Schema yang menyusunnya, dan disediakan di bawah lisensi CC-BY yang sama. Pemetaan Freebase/Wikidata disediakan berdasarkan lisensi CC0.
Tiga Garis Bebas
Set data ini berisi setiap fakta yang saat ini ada di Freebase. |
|
22 GB gzip 250 GB tanpa kompresi |
Data RDF diserialisasi menggunakan format N-Triples, yang dienkode sebagai teks UTF-8 dan dikompresi dengan Gzip.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
Jika Anda menulis kode sendiri untuk mengurai RDF, dump-nya sering kali lebih efisien untuk dibaca langsung dari file GZip daripada mengekstrak data terlebih dahulu, lalu memproses data yang tidak dikompresi.
<subject> <predicate> <object> .
Catatan: Di Freebase, objek memiliki MID yang terlihat seperti /m/012rkqx
. Di RDF, MID tersebut menjadi m.012rkqx. Demikian juga, skema Freebase seperti /common/topic
ditulis sebagai common.topic
.
Subjek adalah ID objek Freebase. Sumber dapat berupa MID Freebase (misalnya, m.012rkqx) untuk topik dan CVT atau ID yang dapat dibaca manusia (misalnya, common.topic
) untuk skema.
Predikat selalu merupakan ID yang dapat dibaca manusia untuk properti Freebase atau properti dari kosakata RDF standar seperti RDFS. Namespace kunci asing Freebase juga digunakan sebagai predikat untuk mempermudah pencarian kunci berdasarkan namespace.
Kolom objek dapat berisi MID Freebase untuk objek atau ID yang dapat dibaca manusia untuk skema dari Kosakata Freebase atau kosa kata RDF lainnya. Ini juga dapat meliputi nilai literal seperti string, boolean, dan nilai numerik.
Deskripsi topik sering kali berisi baris baru. Agar tiga bagian cocok dalam satu baris, kami telah meng-escape baris baru dengan "\n".
Tiga Dihapus Freebase
Kami juga menyediakan dump tiga kali lipat yang telah dihapus dari Freebase seiring waktu. Ini adalah pembuangan satu kali hingga Maret 2013. Di masa mendatang, kami mungkin mempertimbangkan untuk memberikan update berkala untuk triple yang baru saja dihapus, tetapi saat ini kami tidak memiliki jangka waktu spesifik untuk melakukannya, dan hanya memberikan dump satu kali ini.
Dump didistribusikan sebagai file .tar.gz (2,1 Gb terkompresi, 7,7 Gb tidak dikompresi). Ini berisi 63.036.271 triple yang dihapus dalam 20 file (tidak ada arti khusus untuk file individual, lebih mudah untuk memanipulasi beberapa file yang lebih kecil daripada satu file besar).
Terima kasih kepada Chun How Tan dan John Giannandrea yang telah memungkinkan rilis data ini.
2 GB gzip 8 GB tanpa kompresi |
Format data pada dasarnya adalah CSV dengan satu peringatan penting. Kolom objek dapat berisi karakter apa pun, termasuk tanda koma (serta pembatas wajar lainnya yang dapat Anda pikirkan). Namun, semua kolom lainnya dijamin tidak berisi koma sehingga data tetap dapat diurai dengan jelas.
Kolom dalam set data ditentukan sebagai:
- pembuatan_timestamp (Waktu epoch Unix dalam milidetik)
- kreator
- penghapusan_timestamp (waktu epoch Unix dalam milidetik)
- Deletor
- subjek (MID)
- predikat (MID)
- objek (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Pemetaan Freebase/Wikidata
Data telah dibuat berdasarkan Wikidata-Dump tanggal 28 Oktober 2013, dan hanya berisi link yang memiliki setidaknya dua Link Wikipedia umum dan bukan satu Link Wikipedia yang tidak setuju. Selain itu, baris diurutkan berdasarkan jumlah Wikipedia-Link umum (meskipun di Turtle ini tidak terlalu penting). |
|
21,2 MB gzip 242.9 MB uncomkompresi |
Data RDF diserialisasi menggunakan format N-Triples, yang dienkode sebagai teks UTF-8 dan dikompresi dengan Gzip.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Lisensi
Dump Data Freebase disediakan tanpa biaya untuk tujuan apa pun dengan update rutin oleh Google. Keduanya didistribusikan, seperti Freebase itu sendiri, berdasarkan Atribusi Creative Commons (alias CC-BY) dan penggunaannya tunduk pada Persyaratan Layanan. Pemetaan ID Freebase/Wikidata disediakan berdasarkan CC0 dan dapat digunakan tanpa batasan.
Mengutip
Jika ingin mengutip dump data ini di publikasi, Anda dapat menggunakan:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Atau sebagai BibTeX:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }