Veri dökümleri, Freebase'teki verilerin indirilebilir bir sürümüdür. Freebase'te depolanan verilerin ve bu verileri yapılandıran şemanın anlık görüntüsünü oluşturur ve aynı CC-BY lisansı kapsamında sağlanır. Freebase/Wikidata eşlemeleri CC0 lisansı kapsamında sağlanır.
Freebase Üçlüleri
Bu veri kümesi, şu anda Freebase'de bulunan tüm bilgileri içerir. |
|
22 GB gzip 250 GB sıkıştırılmamış |
RDF verileri, N-Triples biçimi kullanılarak serileştirilir, UTF-8 metni olarak kodlanır ve Gzip ile sıkıştırılır.
<http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.date> "2001-02"^^<http://www.w3.org/2001/XMLSchema#gYearMonth> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.source> <http://rdf.freebase.com/ns/g.11x1gf2m6> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/type.object.type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage.rate> 4.5 . <http://rdf.freebase.com/ns/g.11vjz1ynm> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://rdf.freebase.com/ns/measurement_unit.dated_percentage> .
RDF dökümlerini ayrıştırmak için kendi kodunuzu yazıyorsanız önce verileri ayıklamak, ardından sıkıştırılmamış verileri işlemek yerine doğrudan GZip dosyasından okumak genellikle daha verimlidir.
<subject> <predicate> <object> .
Not: Freebase'de nesnelerin /m/012rkqx
gibi görünen MID'leri vardır. RDF'de bu MIDs'ler m.012rkqx olur. Benzer şekilde, /common/topic
gibi Freebase şemaları common.topic
olarak yazılır.
Özne, Freebase nesnesinin kimliğidir. Konular ve CVT'ler için Freebase MID (ör. m.012rkqx) veya insan tarafından okunabilen bir kimlik (ör. common.topic
) için şema.
Yüklem, her zaman Freebase özelliği veya RDFS gibi standart bir RDF sözlüğündeki özelliğin kullanıcılar tarafından okunabilir kimliğidir. Freebase yabancı anahtar ad alanları, anahtarların ad alanına göre aranmasını kolaylaştırmak için yüklem olarak da kullanılır.
Nesne alanı, bir nesne için Freebase MID'si veya Freebase ya da diğer RDF sözlüklerindeki şema için okunabilir bir kimlik içerebilir. Dizeler, boole değerleri ve sayısal değerler gibi değişmez değerler de içerebilir.
Konu açıklamaları genellikle yeni satırlar içerir. Her üçlünün tek satıra sığması için yeni satırlar "\n" ile kaçırılmıştır.
Freebase Deleted Triples
Ayrıca, zaman içinde Freebase'ten silinen üçlülerin dökümünü de sağlarız. Bu, Mart 2013'e kadar tek seferlik bir dökümdür. Gelecekte, yakın zamanda silinen üçlülerin düzenli olarak güncellenmesini sağlayabiliriz. Ancak şu anda bu konuda belirli bir zaman çerçevemiz yok ve yalnızca bu tek seferlik dökümü sağlıyoruz.
Döküm, .tar.gz dosyası olarak dağıtılır (2,1 GB sıkıştırılmış, 7,7 GB sıkıştırılmamış). 20 dosyada 63.036.271 silinmiş üçlü içerir (Dosyaların her birinin özel bir anlamı yoktur. Yalnızca tek bir büyük dosya yerine birkaç küçük dosyayı işlemek daha kolaydır).
Bu verilerin yayınlanmasını sağlayan Chun How Tan ve John Giannandrea'ya teşekkür ederiz.
2 GB gzip 8 GB sıkıştırılmamış |
Veri biçimi, önemli bir uyarı dışında temelde CSV'dir. Konu alanı, virgüller de dahil olmak üzere tüm karakterleri (ve aklınıza gelebilecek diğer tüm makul sınırlayıcıları) içerebilir. Ancak diğer tüm alanların virgül içermediği garanti edilir. Bu nedenle, veriler yine de net bir şekilde ayrıştırılabilir.
Veri kümesindeki sütunlar şu şekilde tanımlanır:
- creation_timestamp (milisaniye cinsinden Unix epoch zamanı)
- içerik üretici
- deletion_timestamp (milisaniye cinsinden Unix epoch zamanı)
- silen kullanıcı
- subject (MID)
- yüklem (MID)
- object (MID/Literal)
- language_code
1352854086000,/user/mwcl_wikipedia_en,1352855856000,/user/mwcl_wikipedia_en,/m/03r90,/type/object/key,/wikipedia/en/$B816,en 1355171076000,/user/mwcl_musicbrainz,1364258198000,/user/turtlewax_bot,/m/0nncp9z,/music/recording/artist,/m/01vbfm4,en 1176630380000,/user/mwcl_images,1335928144000,/user/gardening_bot,/m/029w57m,/common/image/size,/m/0kly56,en 1292854917000,/user/mwcl_musicbrainz,1364823418001,/user/mbz_pipeline_merge_bot,/m/0fv1vl8,/type/object/type,/common/topic,en 1205530905000,/user/mwcl_images,1336022041000,/user/gardening_bot,/m/01x5scz,/common/licensed_object/license,/m/02x6b,en 1302391361000,/user/content_administrator,1336190973000,/user/gardening_bot,/m/0gkb45y,/type/object/type,/type/content,en 1176728962002,/user/mwcl_images,1335954186000,/user/gardening_bot,/m/08430h,/common/topic/image,/m/02cs147,en 1172002568007,/user/mwcl_chefmoz,1283588560000,/user/delete_bot,/m/01z4c1z,/type/object/name,La Casa Rosa Mexican Restaurant,en
Freebase/Wikidata Eşlemeleri
Veriler, 28 Ekim 2013 tarihli Wikidata-Dump'a göre oluşturulmuştur ve yalnızca en az iki ortak Wikipedia bağlantısı olan ve tek bir uyuşmazlık Wikipedia bağlantısı içermeyen bağlantıları içerir. Ayrıca, satırlar ortak Wikipedia bağlantılarının sayısına göre sıralanır (Turtle'da bu durum pek önemli olmasa da). |
|
21,2 MB gzip 242,9 MB sıkıştırılmamış |
RDF verileri, N-Triples biçimi kullanılarak serileştirilir, UTF-8 metni olarak kodlanır ve Gzip ile sıkıştırılır.
<http://rdf.freebase.com/ns/m.0695j> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q6718> . <http://rdf.freebase.com/ns/m.05nrg> <http://www.w3.org/2002/07/owl#sameAs7> <http://www.wikidata.org/entity/Q538> . <http://rdf.freebase.com/ns/m.0jgd> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q414> . <http://rdf.freebase.com/ns/m.0d_23> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q2537> . <http://rdf.freebase.com/ns/m.04g7d> <http://www.w3.org/2002/07/owl#sameAs> <http://www.wikidata.org/entity/Q315> .
Lisans
Freebase Veri Dökümleri, Google tarafından düzenli olarak güncellenir ve herhangi bir amaçla ücretsiz olarak sağlanır. Freebase'in kendisi gibi Creative Commons Attribution (CC-BY) lisansı altında dağıtılır ve kullanımı Hizmet Şartları'na tabidir. Freebase/Wikidata kimlik eşlemeleri CC0 kapsamında sağlanır ve kısıtlama olmadan kullanılabilir.
Alıntı yapma
Bu veri dökümlerini bir yayında alıntılamak isterseniz şunları kullanabilirsiniz:
Google, Freebase Data Dumps, https://developers.google.com/freebase/data, <month> <day>, <year>
Veya BibTeX olarak:
@misc{freebase:datadumps, title = "Freebase Data Dumps" author = "Google", howpublished = "\url{https://developers.google.com/freebase/data}", edition = "<month> <day>, <year>", year = "<year>" }